您的位置 AB分类目录 > 百科资讯 >

搜索引擎研究与TF-IDF加权方法

导读:今天,SEOBOOK带来的是《搜索引擎研究与TF-IDF加权方法》。希望对大家有所帮助。 一、搜索引擎研究的几个问题 虽然,搜索引擎的研究并不是我们SEOer应该考虑的事情,但我们还是应该…

今天,SEOBOOK带来的是《搜索引擎研究与TF-IDF加权方法》。希望对大家有所帮助。

搜索引擎研究

一、搜索引擎研究的几个问题

虽然,搜索引擎的研究并不是我们SEOer应该考虑的事情,但我们还是应该了解一下,他们到底在研究哪些问题。

1、搜索引擎相关性研究

① 相关性概念

搜索引擎要准确地判断用户查询词与页面的相关性,按相关性强弱完成页面集合的初步筛选和排序。

② 相关性分类

1)查询词相关性

搜索引擎首先要判断用户查询词的语义,因为同一个词在不同的场景下,可以代表不同的意思,只有正确判断语义后,才能更好地去匹配相关性强的页面。如果判断错误,那么就可能造成搜索结果页面全完不是用户所需的内容,这样会大大降低用户的搜索体验。

例如,用户搜索“苹果”,搜索引擎给出的都是iPhone的结果,但那个用户可能真的只想搜索普通的苹果。

当然,搜索引擎结果中大部分都显示iPhone是正常的,因为大部分用户去搜索“苹果”这个词的时候,其语义也是iPhone。当然,也会显示一些真正的苹果的结果页面。

2)用户相关性

某个用户看到过哪篇文章,哪个网站,则这个用户在此搜索某个词时,这篇文章和这个网站会有不一样的排名。

某个用户是某个领域的专家,或者说经常关注这方面的爱好者,当他搜索这个领域的某些词时,他可能会对多次进入的网站的排名产生积极的作用。

当然,这些用户相关性可能就是SEO中常说的个性化搜索或个人化搜索。

③ 检索模型

为了检索页面与用户搜索词的相关性,搜索引擎研究人员提出了各种检索模式,其中最为广泛使用的为“TF-IDF”。

TF-IDF的核心概念是一定程度上增加TF(关键词频率或密度)和IDF(关键词的反文档频率)的值,最终得到的两者成绩就是判断页面相关性的值。

简单来讲,增加关键词频率或密度,同时寻找一些百度相关搜索结果数小的词。

2、搜索引擎评价研究

搜索引擎评价体系非常重要,相关性的研究仅仅是最初的筛选和排序,但是否是用户真正期望的,还需要通过评价体系来完成。

① 用户点击生成的日志数据

搜索引擎可以将用户点击的数据在后台记录下来,生成大量的日志数据,再利用这些数据对搜索引擎进行评价。

② 搜索引擎评价方法

其中一种为Cyril Cleverdon的评价方法。

评价中有两种指标:

1)准确率

准确率,是指检索出来的文档中相关文档所占比例。

2)召回率

召回率,是指全部文档中中被检测出来的文档比例。

3、搜索引擎用户搜索体验研究

搜索引擎是面向用户的,用户搜索体验是评价搜索引擎好坏的最重要因素之一,这也是目前搜索引擎为什么非常重视用户搜索体验的因素。

搜索引擎通过数据可以分析出哪些页面或网站的用户搜索体验好,则将提升其排名或整站权重,对于哪些不好的,则会降低排名或整站权重。

这就好比,我们优化网站,点展比高、PV远大于UV等数据,证明了我们网站的用户体验度比较好,搜索引擎也会给予这样的网站更好的排名。

二、TF-IDF加权方法

搜索引擎会给予每一个页面一定的权重值,这个值也会随着页面的更新和时间地流逝而改变。

1、索引创建中的权值

搜索引擎蜘蛛的爬行与抓取,页面的收录与索引,是一个页面能够在用户搜索关键词时能够获得展现的几个基本步骤,其中索引创建中包含着对页面内容本身的加权因素。

① 索引项权值概念

索引项的权值,在一定程度上反应了文档中词的相对重要性,这个值通常用于索引排序过程中计算分值,也就是影响搜索引擎排序的重要因素之一。

② 索引项权值怎么得来的?

索引项权值,是由检索模式中的加权组件利用文档统计结果来计算得出的。

③ 索引项加权方法

传统的检索模式中最常见的加权方法:TF-IDF算法。

2、TF-IDF算法

① TF-IDF算法定义

TF-IDF算法,基于索引项出现在一个文档中的次数或频率,以及索引项在整个文档集合中出现的频率,两者的组合(或者说两者的乘积)。

② TF-IDF算法中词的解析

1)TF

次数和频率称之为词频,英文简称为tf。

2)IDF

索引项在整个文档集合中出现的频率,称之为范文档频率,英文简称为idf。

③ TF-IDF算法的简单说明

TFIDF的核心思想,是指某个词或某个短语在一篇文档中出现的频率高,并且在索引库的其他文档中出现较少,就认为这个词或短句有很好的类别区分能力,可以用来进行分类。

简单来讲,某个词或某个短语就是索引词,对于这篇文章而言,该词项将被赋予较高的权值。

3、理解并使用TF-IDF算法

对于SEOer来讲,了解上面的知识已经足够了,没必要非得知道是用哪个函数,哪个公式算出来的结果。

其实,通过TF-IDF算法的学习,我们可以更好理解一些常识性的SEO知识。

① 品牌词容易优化

品牌词一般是自己创造的,满足TF值大,同时IDF值大,页面加权高,自然排名很容易。

② 行业核心词难优化

无数网站都在优化这同一个词,然而首页的位置却是有限的,大家都满足TF大,但同样IDF越小,证明这个词越难优化。

这也就是平时在判断关键词优化难度时,为什么将百度搜索的相关结果数作为优化难度之一的原因。

③ 多挖掘没有百度指数的关键词-降低优化难度

行业中有百度指数的词,大家都在做优化与排名,这样的词不光是竞争压力大,可能还带不来多少点击。因为百度指数可能是100,真实用户也许只有2个,另外的98个都是企业的竞争者们。

我们应该挖掘一些没有百度指数的词,但是需要这次保持一定的搜索量,这样可以保证降低优化难度的同时,带来更多真实流量。

④ TF并不是万能!过度堆积害处大!

根据TF-IDF算法,很多人会想,增加关键词密度或频率,以增加TF值,从而获得更好的排名。然而,这种做法可以适当做,但超过一定度的话,没什么好处,反而可能会因为过度堆积被搜索引擎降权!

所谓的2%~8%的关键词密度只是个大概范围,很多排名好的页面很多都在2%一下,当然也有在8%以上的,只要密度不是过小,不必过度在乎这个。

举个例子,已经是5%的密度了,非要故意堆积到8%,甚至百分之20%,就会变得非常没有意义。这是对TF高的一种误解。

也就是我们能够根据TF-IDF算法中得到的启发是不应该让关键词的密度或频率(TF)过低,然而对于IDF来说,我们只能通过寻找IDF值高的关键词来优化,如果我们优化的关键词的IDF值本来就很低,我们也不能对其改变这个现状,IDF值越低,证明这个词在一定程度上就越难优化。

所以,在网站优化过程中,除了要做好页面外,还需要关注内链与外链优化。

以上就是SEOBOOK带来的《搜索引擎研究与TF-IDF加权方法》。感谢您的观看。

AB分类目录部分内容来源于互联网,登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,如有侵犯版权请来信告知QQ:2216876660,我们将立即处理。

为您推荐