干货|「TF-IDF算法」+ python工具实现不同的排名

  TF-IDF 是一种用于信息检索与文本挖掘的常用加权技术,比较容易理解的一个应用场景是当黑帽SEO零零七有一些文章时,我们希望计算机能够自动地进行关键词提取。而TF-IDF就是可以帮我们完成这项任务的一种统计方法。它能偶用于评估一个词语对于一个文集或一个语料库中的其中一份文档的重要程度。这个方法又称为"词频-逆文本频率"。

  逆向文件频率 ( IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。

  综上TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF实际上是:TF * IDF,TF为词频,IDF反文档频率。

      接下来计算TF-IDF和python工具来实现

配置关键词及网址

图片1.png


输出的各个词的TF-IDF值如下

图片2.png

分析下TF-IDF值对关键词有什么影响

  图下,同一个网站,1个主页和1个内页,有无外链情况下。

主页

图片3.png


内页

图片4.png


这二条链接对应的TF-IDF值,分别如下图:

图片5.png

       你会发现为什么TF-IDF值越高的排在后面,值低的排在前面,这是因为主页权重高,再加了高质量的外链,而内页什么都没有加也没有点击,所以说TF-IDF值低也能有好的排名,只是加了些辅助内容,才取得好的排名。


 排名首页的网站,TF-IDF值都在范围内

图片6.png

        黑帽SEO这个词,排名在前10的,基本都20上以(TF-IDF)值,当然还有5个为0的,也就是非完全匹配的。排名不稳定时上时下,了解详情 扫二维码。

       可以说TF-IDF是非常常用的文本挖掘的预处理的步骤,使用TF-IDF并进行标准化后,就可以使用各个文本的词特征向量作文文本的特征,进行分类或者聚类分析。