掌握了搜索引擎的算法本质,做任何网站都轻松

2019-03-05 21:29 阅读 62 views 次 掌握了搜索引擎的算法本质,做任何网站都轻松已关闭评论

SEO这东西永远是万变不离其宗,如果我们掌握了搜索引擎的算法本质,做任何网站都轻松,都很容易把排名搞上去!搜索引擎的算法本质到底是什么?

思考:什么是TF,什么是IDF,为什么需要TF-IDF算法?

答案:TF(全称Term Frequency),中文含义词频,简单理解就是关键词出现在网页当中的频次。IDF(全称Inverse Document Frequency),中文含义逆文档频率,简单来说就是该关键词出现在所有文档里面的一种数据集合。比如关键词“中国”在A网页里面出现了100次,那么它的TF值则是100次(词频),假设搜索引擎所收录的所有网页里面有1亿网页包含“中国”该关键词,那么IDF将由IDF公式计算出它对应的数据值。统一来理解则是TF是计算自己网页内的关键词频次,而TDF是计算所有文档里面包含该关键词的一种概率数值。

计算公式:

TF=某个词在文章中出现的次数=某个词在文章中出现的次数/文章总词数

IDF=log(语料库文档总数/(包含该词文档数+1))

TF-IDF=词频(TF)*逆文档频率(IFD)

备注:关于IDF中的计算公式如果不理解的话可以简单的理解是通过一个总词库文档数除以包含该词的一个文档总数+1,通过log对数运算得出的一种计算结果。假设A关键词在B网页中出现了10次,并且所有文档语料库有1000亿张网页,A关键词在百度搜索结果出现的次数为100w次,那么IDF=log(1000亿/1000001)。TF-IDF=10*log(1000亿/1000001),该值不会计算可忽略在,重点理解该算法计算原理。

算法思想:

TF-IDF的核心思想是通过该算法进行有效的计算网页的核心关键词。虽然语义分析以及中文分词能够简单的计算出页面的关键词主题,但是由于互联网内容信息重复度较大,同一个内容单纯从分词角度来讲是不足以满足搜索引擎针对网页的内容是否更加符合用户的需求。而TF-IDF则可以用过算法公式来计算用户搜索词与网页之间的相似度。

比如网页标题“小明的同桌叫马天”,这里面的、叫在搜索引擎里面一般都称为停用词,也就是无意义词。而去掉这些词剩下的词则是小明、同桌、马天。根据分词原理,这三个词都是名词,那么作为用户而言去看这个标题明显知道是阐述马天是网页的核心关键词,但是对于搜索引擎来说并不能深刻的理解该网页的核心关键词。对于这三个词,一般我们都有一个词的重要程度系数。从常见度来说,越常见的东西则不重要,反之越不常见越重要。那么搜索引擎是如何知道该词的常见程度呢?可以通过相关搜索结果数来计算关键词的重要度。

根据下图的关键词相关结果可以得出,马天数值最小,也是最不常见的词,那么常见度排序结果则是小明>同桌>马天。现在在返回看我们最前面的张玉鹏案例就不难发现为何该词有排名,标题其他词却没有排名的原因。正是因为先通过分词,然后借助分词符号将短语分离,从而通过TF-IDF的核心算法思想进行操作排名。

图片2.png

算法应用:

关于TF-IDF的算法实战应用,最常见的方式则是利用TF-IDF算法的计算方式来进行定位网页的核心词,从而网站大量提升关键词排名。首先我们要理解真正原创文章的含义,真正的内容原创有两种,一种是网页内容与总语料库文档不重合,另一种则是关键词与该关键词的相关结果文档不重合。而TF-IDF最佳的运用方式则是可以采用换汤不换药的操作方式来进行关键词排名。比如优化一个关键词“山药的功效与作用”,那么我们可以去抄袭一篇“人参的功效与作用”的文章,并且替换网页里面的所有人参关键词,尽管这篇文章在人参里面是重复性很高的文章。但是在山药的功效与作用里面它就是独一无二的。并且刻意增加山药文章里面的TF值,让搜索引擎认定该网页的核心关键词。

图片3.png

(这本来是写人参 的一片文章,关键词换成山药后的搜索结果)

通过TF-IDF算法应用的经典案例,内容全部抄袭,网页标题(title)与文章标题不同,目的就是用来提升网页的点击率。为了提升网页的点击率,我们可以将网页的标题(title)写的更加规范,这样排名一旦上来,还有利于用户的点击,从而提升网页关键词的排名更佳状态。

图片4.png

上图我们可以看到,张玉鹏该网页出现的内容重复度极高、并且网页内容与标题也基本一致,那为何偏偏只有我的站张玉鹏有排名,而其他网站却没有排名。单纯从站点的权重评级来看,www.51dx.org站点也不是最好的,这里面最大的原因则是TF问题。尽管内容都一致,甚至H标签、加粗这类影响站内权重的标签都规范了网页的权重程度。但是51dx站点TF-IDF值最小,从频次来讲,51dx站点里面的张玉鹏关键词是所有出现重复内容里面TF值最大的一个站点(频次),所以搜索引擎在定位一个核心关键词的时候,会将TF值最大的一个站点进行结果排序。并且结合IDF思想,张玉鹏搜索结果众多,该网页在张玉鹏里面的排名又是独一无二的内容页面。所以我们在借助TF-IDF算法操作排名的时候,尽可能的把TF值放大(放大的时候一定要保持关键词分布自然性),即使是抄袭的文章,也要把抄袭做到极致,从而引起网页关键词的排名!

版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:掌握了搜索引擎的算法本质,做任何网站都轻松 | 大腿根网赚
广告位招租VX:398687308

评论已关闭!