太阳集团tyc5997|官网【中国】有限公司

百度蜘蛛抓取目录没有相应的解决方案
  • 作者:admin
  • 发表时间:2021-02-17 07:51
  • 来源:未知

相信你在分析百度蜘蛛日志的时候经常会发现一个问题,就是百度蜘蛛经常会抓取一些不存在的目录。比如我的网站上没有这样的目录,但是百度蜘蛛一直在爬,或者你会发现百度蜘蛛在爬自己的私有目录或者php文件。这是为什么?今天我给大家详细分析一下,并说明相应的解决方案。这篇文章干货比较多,建议仔细阅读。

1,如果蜘蛛只爬太阳集团tyc5997|官网,不爬内页,是什么情况!很简单,域名有问题。一般来说,如果出现这种情况,域名目前可能处于审查期,也就是说你从事过非法行业,或者你的程序有作弊嫌疑,但域名占的比例很大。如果程序有问题,百度蜘蛛一开始会抓取一些。

2.如果百度蜘蛛抓取一些私有文件,比如php,zip,rar,会怎么样?这种情况下,你要判断当前IP是否是假蜘蛛文件,因为现在很多IP都会自动改变自己的UA。和百度蜘蛛一样,你无法从蜘蛛日志中分辨出来。可以通过ip138识别IP,看看是不是蜘蛛IP。如果不是,果断封杀。如果太多,就按IP段屏蔽。

3.如果百度蜘蛛抓取了一些私有目录,如果是真蜘蛛该怎么办?如果你确认是真的百度蜘蛛,百度可能在抓取你页面的内部程序,检查你使用的程序版本,等等。这些百度都会有区分策略。一般来说,百度会优先考虑自己写的程序。为了防止蜘蛛抓取我们的私有目录,我们通常使用robots.txt屏蔽它。记住:有效时间24小时左右。

4.蜘蛛抓取一些不存在的目录和一些不存在的文件怎么办?

首先还是要判断是不是真的蜘蛛。如果是真蜘蛛唐山网络公司,百度抓取一些不存在的目录是因为你在这个域名之前做过一些站点,现在又开始做了。百度会根据之前的评分和URL进行抓取,看看之前的站点是否又恢复了。一般来说,这种爬行会在30天内自动消失。如果30天后还存在,你就要屏蔽这种链接。简而言之:

此外,如果你把其他网站301放在你当前的域名上,蜘蛛会根据其他网站的网址抓取你的网站。这个时候你也会发现百度在爬一些不存在的目录,但是不要害怕,这样不会伤害到你的站点。

5.蜘蛛抓取时的状态码301、304、200、403、404、444呢?

首先要明白301状态码是重定向。如果你的顶级域名,如daidaiseo。com-> www.daidaiseo.com,百度抓取daidaiseo.com以上资源时,会出现301重定向码,如果抓取www.daidaiseo.com以上资源,会出现200状态码,表示抓取成功。

Baidu
sogou