如何避免“蜘蛛陷阱”?

2020年12月19日09:02:47
评论
96

网站要想获得良好的排名,首先网站的结构对于搜索引擎必须是友好的。这就意味着在网站中,搜索引擎的爬行是畅通无阻的,没有“蜘蛛陷阱”。因此,在网站结构优化过程中需要注意避免“蜘蛛陷阱”。那么究竟什么是蜘蛛陷阱呢?

蜘蛛陷阱是指组织蜘蛛程序在网站中爬行的障碍物,通常是指一部分显示网页技术的方法。在网站SEO工作中,网站被收录是基础工作,如何消除这些蜘蛛陷阱呢?下面将介绍一些常用的方法。

一、尽量不使用Session ID页面

对于网站的每一个访客,服务器会分配一个ID,那就是Session ID(会话标识)。Session是用来追踪访客会话的,使用服务器生成的Session ID区分访客,进而实现访客的身份标识。

很多网站为了分析访客的身份信息而采用Session ID来跟踪访客。当访客在访问网站的时候就会生成一个独一无二的Session ID,并且加入URL中。

当搜索蜘蛛每次在网站页面中爬行的时候,都会被“误以为”是新访客,URL中又会新增一个Session ID,这就会造成同一个页面但是不同URL的情况。最后直接导致产生复制内容页面,造成了高度重复的内容页,这也是最常见的蜘蛛陷阱。

例如,有的网站为了提升网站的响应速度和销售业绩,而强行采用Session用来追踪访客的信息。下图所示是Session的地址追踪。

如何避免“蜘蛛陷阱”?

在网站中,应该尽量避免使用Session ID页面,一方面,不利于搜索蜘蛛的爬行和索引;另一方面,曝光访客的信息在无形中降低了访客对网站的好感程度,会导致访客的跳失率较高。

二、网站首页尽量不使用Flash动画

很多中小型企业的网站喜欢在网站首页设置Flash动画。因为Flash动画本身可以制作出很多效果,将音乐、声效以及富有新意的界面相融合,尤其是放在网站导航页,视觉效果佳。所以,不少企业通过在导航页中设置Flash动画彰显企业的产品、实力、文化和服务理念。图6-13所示是某电子商务网站在首页中设置了Flash动画。

实际上,Flash动画也是一种蜘蛛陷阱。很多新手站长不禁要问:为何Flash动画是蜘蛛陷阱呢?

从搜索蜘蛛的层面来看,搜索蜘蛛识别不了Flash页面,不能够通过Flash动画爬行到HTML页面。所以,这就相当于一个陷阱,阻挡了搜索蜘蛛继续抓取网页。

如何避免“蜘蛛陷阱”?
从用户的角度出发,当用户在访问网站首页的时候,查看完Flash动画之后,没有了解到需要了解的信息,就会放弃继续访问网站,造成网站首页的跳失率过高。

因此,网站首页尽量不要使用Flash动画。即使Flash动画效果是必需的,也建议在Flash文件之后添加通往HTML页面版本的链接,这样能够保证搜索蜘蛛跟踪链接继续爬行和抓取。

三、避免使用动态URL

URL结构的分类静态、伪静态、动态URL,有其中动态URL往往是加入了一定的符号或者是网址参数。尽管随着搜索引擎技术的发展,搜索蜘蛛能够抓取部分动态URL,但是动态URL是数据库直接生成的,不利于搜索蜘蛛的爬行,甚至会造成死循环。

对于一部分没有程序代码开发基础的站长而言,可以采取开源建站程序,一般的建站程序都是支持URL静态化的,例如wordpress、dedecms、discuz。站长只需要按照操作步骤一步步完成即可。

但是值得注意的是:动态URL静态化并非简单地将网址中特殊符号和参数去除,还需要注重以下几点。

①每个页面对应一个URL地址,动态URL静态化之后,原来的URL地址将不存在。
②栏目和列表尽量采取“/123”的格式,内容页则采取“/123.html”的格式。
③URL的层次结构能简则简,例如“/123/456.html”可以写成“/456.html”。
④URL中包含关键词,既能加深用户的记忆,又能提升网站关键词的排名。
⑤URL的书写尽量统一和规范。

网站SEO过程中,并不是所有的动态URL都必须改成静态URL。如果网站动态URL确实不能改写成静态URL,站长也不需要刻意强求,只需要做好网站的内容维护即可。

四、避免设置万年历

万年历是比较典型的蜘蛛陷阱。有的网站在首页中设置了万年历,尤其是宾馆、航空公司、在线票务网站,为了方便用户进行时间的查询,往往会在网站中设置万年历。

万年历直接使搜索蜘蛛陷入无线循环中,因为搜索蜘蛛的爬行是点击下一个链接,而万年历又是无限循环的。每次当搜索蜘蛛点击万年历之后就产生新的链接,进而导致蜘蛛爬不出去。但是搜索蜘蛛的资源是有限的,因此最终就会导致网站无法被收录。

下图所示是某票务网站后台统计搜索蜘蛛在网站中的爬行情况,搜索蜘蛛已经陷入无限循环中,尽管访问的页面量很大,但是实际上被收录的页面却很少,甚至没有。

如何避免“蜘蛛陷阱”?

因此,在网站中尽量不要设置万年历,因为万年历最容易让蜘蛛陷入无限循环中,不停地点击下一月或者是下一年,而每一个日期对应的页面并没有任何内容,直接降低了网站被收录的概率。

五、避免各种敏感的跳转

网站的跳转形式也会给搜索蜘蛛的爬行带来一定的影响,例如302跳转、JavaScript跳转、Mate Refresh跳转。下面将逐一讲解。

1.301跳转

301跳转主要是指旧网址在废弃之前转向新网址,以保证用户的正常访问,并且在诸多的服务器都支持301跳转方法。例如京东商城的旧网址是www.360buy.com,新网址是www.jd.com;不管是在浏览器中输入旧网址还是新网址,最终都会跳转到京东商城的首页,如下图所示。

如何避免“蜘蛛陷阱”?

301跳转能够传递网站的权重,例如A网站利用301重定向转到B网站,搜索引擎可以确定A网站永久性改变地址,进而把B网站当作唯一有效的目标网站,且A网站积累的权重也会被传递到B网站中。

2.302跳转

302跳转是网站重定向的一种,指的是一条对网站浏览器的指令来显示浏览器被要求显示的不同的URL,主机所返回的状态码。区别于301跳转,301跳转是网站的永久性重定向,而302跳转则是网站的临时定向。

从表面上看,302跳转比301跳转更加友好,但是由于302跳转是临时性跳转,如果被用作网站的长期跳转,搜索引擎会认为这是网站利用302跳转劫持别的网站的权重,进而被判定为作弊行为,受到处罚。

由于搜索引擎在处理302跳转方面尚不完全成熟,经常将它纳入黑帽SEO的范畴中,导致网站被降权或者是被K。因此,302跳转对于网站优化是弊大于利的,在网站SEO中尽量少用或者是不用302跳转。

3.JavaScript跳转

JavaScript是一种直译式脚本语言。搜索引擎不能解析和自动检测到JavaScript脚本,无法进行自动转向。因此,JavaScript跳转是网站SEO中比较难处理的问题。为了降低网站优化的难度,网站尽量避免使用JavaScript跳转。

4.Mate Refresh跳转

由于搜索引擎能够抓取HTML,而Mate Refresh也属于HTML。因此,对于Mate Refresh跳转,搜索引擎能够自动检测出来,无论网站的跳转是出于什么目的,都很容易被搜索引擎视为误导用户来受到处罚。

综上所述,针对于各种形式的跳转,除了301跳转以外,搜索蜘蛛对于其他形式的跳转都非常敏感,因为黑帽最常采用这种跳转手段。为了避免网站被搜索引擎判定为作弊,尽量不要采用敏感的跳转形式。6.3.6

六、规范robots.txt书写

在一个网站中存在很多文件,其中包括了后台程序文件、前台模板文件、图片等。这其中的部分文件是网站不希望搜索蜘蛛抓取到的,那该如何处理呢?

网站通过设置robots.txt文件来屏蔽搜索引擎索引的范围,减小搜索蜘蛛抓取页面所占用的网站宽带。此外,设置robots.txt可以指定搜索引擎禁止索引的网址,大大地减少了网站被收录的重复页面,对于网站SEO有较显著的作用。

robots.txt作为搜索引擎入站后第一个访问的对象,扮演着至关重要的角色。尽管robots.txt文件看起来很简单,只有几行字符,但是很容易犯一些书写方面的错误。以下是robots.txt文件在书写中最常见的错误。

注:
User-agent表示搜索蜘蛛;
星号*代表所有的搜索蜘蛛;
谷歌的搜索蜘蛛是Googlebot,百度是Baiduspider;
Disallow表示不允许搜索引擎访问和索引的网页;Allow表示允许搜索蜘蛛访问和索引的目录;
Allow:/表示允许所有搜索蜘蛛,Disallow:/表示禁止所有搜索蜘蛛。

1.颠倒顺序

错误写法:

Disallow:Googlebot
User-agent:*

正确写法:

User-agent:*
Disallow:Googlebot

2.多个禁止命令放在同一行

错误写法:

Disallow:/css//cgi-bin//images/

正确写法:

Disallow:/css/
Disallow:/cgi-bin/
Disallow:/images/

3.行前有大量空格

错误写法:

Disallow:/cgi-bin/

正确写法:

Disallow:/cgi-bin/

4.使用大写

错误写法:

USER-AGENT:EXCITE
DISALLOW

正确写法:

user-agent:excite
Disallow

5.语法中只有Disallow,没有Allow

错误写法:

User-agent:Baiduspider
Disallow:/john/

正确写法:

User-agent:Baiduspider
Disallow:/john/
Allow:/jane/

6.语法中没有添加/

错误写法:

User-agent:Baiduspider
Disallow:css

正确写法:

User-agent:Baiduspider
Disallow:/css/

7.冒号的输入状态为中文

错误写法:

User-agent:*
Disallow:/

正确写法:

User-agent:*
Disallow:/

8.404重定向指向另一个页面

当搜索蜘蛛在访问网站没有设置robots.txt文件的网页时,会被自动404重定向指向另一个HTML页面。此时,搜索蜘蛛往往会以处理robots.txt文件的方式处理该页面。因此,建议在网站的一级目录下放置一个空白的robots.txt文件。

由此可见,robots.txt文件蕴含了很多小细节,如果网站SEO忽视这些细节的话,不仅不能对网站优化有任何实质性的帮助,反而可能成为影响网站“大战”的绊脚石。

总结:网站结构优化的最终目的是为搜索蜘蛛提供比较顺畅的爬行路线,少设置蜘蛛陷阱,以保证搜索蜘蛛对网站进行抓取和索引的质量,进而提升网站的排名。

大发贱志
  • 本文由 发表于 2020年12月19日09:02:47
  • 转载请务必保留本文链接:https://bigfa.com/204.html
匿名

发表评论

匿名网友

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: