相信做网站优化排名的时候,首先遇到的第一关就是网站收录的问题。虽然收录并不会改变排名,但网站收录是网站排名的前提。作为百度知道的大芝麻团-SEO优化团团长,常遇到朋友来问网站收录少的问题。
“蜘蛛来我的网站爬行了很多页面,但是为什么没有收录呢?”或者还有这样的疑问:“有人建议我做伪原创,也有人说伪原创没有用,到底该听谁的呢?”
要解决这些疑问,就要从根本上了解搜索引擎是怎么处理抓取的网站内容的。作为SEO专业公司,92网络在这里为您分析一下,网站伪原创和收录的问题。
首先,我们要了解一下什么是“索引”。搜索引擎的“索引”也被称为预处理。搜索引擎蜘蛛抓取来的内容是不会在用户搜索的时候实时展现给用户的,因为这么做的计算量实在太大。搜索引擎的做法是将抓取来的页面进行预处理,然后在为最后的查询排名做准备。
搜索引擎对网站网页建立索引的方式一般可以分为以下步骤:
1.提取文字
搜索引擎爬到一个网上上,然后开始采集这个页面的内容。其流程请看下图:
由于搜索引擎蜘蛛抓取的是页面的HTML代码,里面包含了大量的HTML标签、js等无法用到排名上的内容,所以搜索引擎索引首先要做的就是把其中的HTML标签、js去掉,保留剩下的页面文字内容。
例如,我们顺便打开一个网页,取一下HTML代码,如下图:
搜索引擎在抓取这个页面后,一大堆的HTML代码对于网站排名来说是没有价值的,只有剩下用于排名的文字:
“留学,留学资讯,留学外语、英语四六级”,
这几个词。也就是说,也就是这几个词对网站的收录和排名有价值。
92网络SEO小贴士:除了文字外,搜索引擎索引时也会提取出一些包含文字信息的代码。比如图片替代文字,也就是通常所说的ALT标签(不懂的同学可以请教百度哦)或者flash文件替代文字、链接锚文字等。
所以在seo优化中做好图片的alt标签优化也是很重要的一点哦。
2.中文分词
由于我们国内网站基本都是中文网站,搜索引擎是处理中文信息的搜索引擎,有着自己的特色。中文分词是中文搜索引擎特有的步骤,英文单词之间会有空格作分隔,而中文词与词之间没有分隔符号,一个句子字与词都是连在一起的。中文搜索引擎必须首先分辨那几个字组成一个词,哪些字本身就是一个词。比如“网络公司”将被分词为“网络”和“公司”两个词。
搜索引擎的中文分词的方法,常用的分词方法是“词典匹配”与“统计匹配”两种。
1)词典匹配
是将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,其中汉字如果与词典中的词条匹配成功,则可以分出一个单词。
2)统计匹配
则是分析大量网络上出现的文字样本,计算出字与字之间相邻的概率,概率越高就越可能称为一个词,这么做让搜索引擎对于网络上新出现的词反应更加迅速。
我们seo工作人员要做的就是用H1标签、黑体等这些方式提示搜索引擎按照我们的意思来分词,注意不要滥用。
当然也有一些根据语句判断来进行拆分的,这就是我们说的第三种情况:
3、去停止词
在页面内容中会存在很多对内容没有任何影响的词,自然地将词语分割开来,如我常说的语气助词、连词等“的”、“之”、“却”、“啊”之类。
搜索引擎在索引时会把这些词去掉,让页面内容的主题更加突出。
4.去重(为什么伪原创弊大于利)
搜索引擎为了减少搜索结果中出现的重复内容会选取页面内容中出现频率最高的词,通常会选出10个左右关于页面的关键词来计算页面的“指纹”。
了解这点之后就可以发现,在经过去重之后,那些所谓的伪原创比如增加一些“的”、“然而”之类的无意义词,调换段落顺序或者替换一些词语都不能改变一篇文章的特征关键词,也就骗不过搜索引擎。
有的人也会采取大量替换文章中的近义词和混合多篇文章的方式进行伪原创,这种方式是有可能骗过搜索引擎。但是这种文章关键词不明确而且读起来完全不通顺,seo优化是在保证用户体验的基础上迎合搜索引擎,这样自己都读不下去的文章对你的网站又有什么积极作用呢?
伪原创只不过是在互联网上制造垃圾罢了。
5.提取关键词
经过以上步骤之后,搜索引擎就可以提炼出可以代表一个页面内容的一些关键词,同时记录这些词在页面上的出现频率、出现次数、格式、位置等信息。
在搜索引擎中,每一个页面都是一串关键词,其中每个关键词的频率、格式、权重信息都将记录在案。
6.链接关系计算
链接对于一个页面来说是很重要的事情。
当页面中存在链接时,搜索引擎会计算这些链接都只想哪些页面,每个页面都有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重。
这些链接关系也是百度计算权重的重要依据之一,至于百度权重和链接分析会在以后的文章中专门介绍。
7.页面质量判断
在这个阶段,搜索引擎会对页面内容质量、链接质量等作出判断,比如百度的绿萝、石榴算法。
质量判断包含很多因素,并不仅仅只是关键词的提炼与计算,或者对链接的质量度进行判断。比如在内容页中,很可能包括了用户体验、排版、广告分布、页面打开速度等因素的判断。
最终,搜索引擎判断出该页面是否有价值?如果有价值,则可以被收录,并建立索引;如果没有价值,则会选择放弃。
所以,要做好页面优化,需要我们深入地了解每个页面,提升每个页面的质量。才能解决搜索引擎收录问题,而不是简单地区做伪原创。92网络希望我们都能做一个让搜索引擎喜欢,也让用户喜欢的有价值的网站。
相关文章导读:
1. 时尚的动态网站风格设计
2. 多功能手机网站建设技术
3. SEO型多语言企业网站设计
4. 多年搜索引擎优化SEO经验
5. 强大功能的网站后台管理系统
6. 用心设计、真诚服务……使92网络不断发展壮大,也是让您放心选择的理由。
连云港企业网站设计,连云港手机网站设计,连云港手机APP开发,网站页面设计,SEO搜索引擎优化,网站代维服务,公共号功能开发、小程序设计、自助建站……来找久爱(92)网络。