• Home / 谷歌SEO优化 / 揭秘谷…
SEO-TF-IDF

揭秘谷歌如何让用户找到你的网站之:TF-IDF算法

白帽波哥之前跟大家分享过如何选择关键词。讲了一下大家刚开始会踩的坑,并分享了我自己的经验供大家参考。接下来给大家分享一个简单的提取关键词的方法,TF-IDF。

大家可能对其很陌生,但是有人在用这个算法去做关键词研究,其实也可以说TF-IDF是未被人们充分利用的工具。利用TF-IDF可以深入了解竞争对手的关键词以及我们如何设置关键词,创建高质量相关内容。

首先,TF-IDF是什么?
TF-IDF  (Term Frequency – Inverse Document Frequency) 代表:术语频率 – 逆文档频率。是一种用于信息检索与数据挖掘的常用加权技术。这是Google用作排名因素的文本分析技术,它表示单词或短语对语料库中的文档(文章内容)的重要程度。

TF-IDF有两点:
首先,它告诉我们一个单词在文档中出现的频率 – 这是TF-IDF的“术语频率”部分。然后,用“逆项频率”来衡量,显示这个术语的重要性。它会减轻频繁出现的词(例如“the”或“a”),并放大更独特的词。如果某些单词比其他单词更常出现并且几乎没有相关性,可以进行调整。
这个加权分数告诉我们关键字的相关性,当我们将它应用到SEO时会更方便。

谷歌会通过不断优化的最先进的算法找到我们需要的内容,该算法实际上包括类似TF-IDF的分析,以确保内容与被搜索的主题相关。无论是希望通过内容获得更广泛的覆盖面,增加流量而不会受到Google的惩罚,或者有资格获得高SERP排名,我们需要做很多针对Google搜索引擎相关的工作,TF-IDF就是之一。

如何进行TF-IDF分析
我们需要一些东西来揭示单词的语义相关性。 TF-IDF帮助我们了解Google在表现非常好的网站中所看重的内容。Google了解推动用户参与的确切指标,并且能够很好地指出搜索者是否对结果感到满意,也就是用户满意度。

举个简单例子。假设我现在为“柠檬”排名。我们可以通过搜索引擎自动显示的相关关键词或者是关键词研究工具得到诸如“柠檬水”,“柠檬糖”之类的词汇。这个可以查看到当前关键词搜索量较大以及相关度较高的关键词。还有就是可以在大家热议的,或者是很高质量,大家都认可、觉得赞的文章中查找。

接下来我们算一下词的TF-IDF值。我们需要知道的数据有:词频 文档总数 包含该词的文档总数

在一篇文章当中会有一些词,例如“是”,“的”,这些词出现频率很高,但是并非关键词。这类的词就是“stop words”- 停用词,可以过滤掉。

接着会发现有些词可能与“柠檬”出现次数一样多,假设“维C”和“柠檬”出现次数是一样的。

用Google分别搜索“柠檬”“维C”,出现0.831亿和7.37亿结果,这两个是包含词的文档总数。假设有一篇文章,八百字,柠檬出现16次,那0.02就是它的词频。再假设文档总数是100亿。

怎么计算TF-IDF呢

TF-IDF(x) = TF(x) * IDF(x)

TF=某个词在文章中出现的次数/文章总词数

IDF=log(文档总数/包含该词的文档总数+1)

 

柠檬

TF-IDF(x) = TF(x) * IDF(x)  =0.02*2.0791  =0.041582

 

维C

TF-IDF(x) = TF(x) * IDF(x)  =0.02*1.0772  =0.021544

 

可以看到,柠檬和维C这两个词的TF-IDF值,柠檬是高于维C的。“柠檬”是文章的关键词。
也许单凭一个词汇出现的次数,不足以衡量这个关键词词汇的重要性。因为关键词的位置对页面也会有影响,一般较重要的信息是会出现在文章内容的前半部分。但TF-IDF优点就是简单快速,可以给我们提供Google认为重要的主题。通常这跟排名相关,而排名通常也会意味着流量。欢迎大家在下方留言,白帽波哥定会知无不言言无不尽。

Write a Comment

电子邮件地址不会被公开。 必填项已用*标注

wechat

Scroll Up