王立建SEO工作室十年经验老司机 提供企业网站优化排名服务 王立建 手机:18003190145 QQ:200898432

搜索引擎工作过程(2)预处理

蜘蛛抓取的原始页面并不能直接用于查询排名,需要对其进行一定的处理。这个处理的过程称为预处理。搜索引擎预处理的环节是在后台提前完成的,用户搜索时感觉不到这个过程。搜索引擎预处理涉及到网站优化中的多个环节,因此掌握搜索引擎预处理的原理,可以更快速地理解网站优化的各个因素。搜索引擎预处理共分为六步:提取文字、中文分词、去除重复页面、计算网页重要度、建立索引和分析链接。

(1)提取文字

现在的搜索引擎还是以文字内容为基础,从网页文件中去除标签、程序,提取出可以用于排名的网页文字内容。同时需要注意在优化网站时,页面内容尽量以文字为主,方便蜘蛛提取用于排名的内容。

(2)中文分词

搜索引擎将抓取到的页面中的文字提取出来后,需要对提取出的文字进行拆分重组,这个过程称为中文分词。

英文等语言,单词与单词之间有空格作为天然分隔,搜索引擎索引程序可以直接把句子划分为单词的结合。而中文词与词之间没有任何分隔符,一个句子中的所有字和词都是连在一起的。搜索引擎必须首先分辨哪几个字组成一个词,哪些字本身就是一个词。

进行中文分词时,首先要把网页中提取的文字按照词组进行划分,比如“连衣裙批发”可以分词为“连衣裙”“批发”“连衣裙批发”。

在分词时,对内容没有任何影响却大量出现的词会被搜索引擎自动过滤,如的、地、得、啊、哦、呀、不但、而且等。

搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而不是取决于页面本身如何,因此SEO人员对于分词所能做的很少。唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当做一个词处理,尤其是可能产生歧义的时候,比如在页面标题处出现关键词,或者使用标签强调关键词。

(3)去除重复页面

将分词后的页面进行对比,去除重复内容的页面。

同一篇文章经常会重复出现在不同网站及同一个网站的不同网址上,搜索引擎并不喜欢这种重复性的内容。用户搜索时,如果在搜索结果页排名靠前的位置看到的都是来自不同网站的同一篇文章,用户体验就会很差。对于搜索引擎而言,更倾向于网站更新高质量的原创内容,这样做符合搜索引擎的基本原则。

搜索引擎倾向于原创,因此石家庄SEO人员应该知道简单地增加“的”“地”“得”、调换段落顺序这种所谓的伪原创,并不能逃过搜索引擎的去重算法。优化网站时,更新高质量的内容才是真理。

(4)计算网页重要度

搜索引擎会根据网页的被指向链接数及页面的原创性两个因素综合判断,计算出页面的重要程度。因此为网站增加指向链接、提高页面的原创度,是SEO人员应该重视的内容。

(5)建立索引

建立索引是建立关键词与网页之间的对应关系,详情请阅读:http://www.wanglijian.com/63.html

(6)分析链接

链接关系计算是预处理中很重要的一步。主流搜索引擎排名因素都包含网页之间的链接流信息。必须计算出页面上有哪些链接指向哪些其它页面,每个页面有哪些导入链接,链接使用了什么锚文本等,这些复杂的链接指向关系,形成了网站和页面的链接权重。