您现在的位置是：首页 > 云笔记 > SEO学习 > 文章详情

怎样判断网站的访问记录中有百度蜘蛛来访

admin 2019-12-15 15:17:45 1350人已围观

在做网站优化的过程中经常要判断我们提交给搜索引擎的网页地址是否被搜索引擎的蜘蛛访问过，在这里简单的记录一下我自己学习分析的方法。

第一步，需要认识什么是百度蜘蛛

我们需要知道什么是百度蜘蛛，知道它在访问我们网站过程中留下那些痕迹，我这里引用百度官方的介绍：https://ziyuan.baidu.com/college/articleinfo?id=1295 （正确识别百度蜘蛛），基本就2种手段：识别UA和反查IP。

第二步，识别百度蜘蛛的UA记录

这种方式根据你使用的网站编程语言，应用服务器软件这些具体操作都有所不同，但都可以通过记录访问日志来追踪百度蜘蛛的访问记录。我这里以我自己的情况为例来说明我的做法，我是JAVA开发的网站tomcat发布在linux上面。我在我的网站上写了一个访问拦截器，所有的访问者都要记录UA信息到日志中，相关代码如下：

String userAgent=request.getHeader("User-Agent");
logger.info("***userAgent="+userAgent);

需要查看的时候下载日志对比上面百度公布的百度蜘蛛UA来核实

第三步，反查IP来查看百度蜘蛛记录

我这里还是以我自己的tomcat服务器来说明，tomcat的logs目录下面有一种localhost_access_log.日期.txt的日志，下载下来查看凌晨大概01-05点之间的访问日志，观察进来第一个就访问:GET /robots.txt 文件的日志，把相关IP记录下来：

123.125.71.57 - - [18/Dec/2018:00:19:15 +0800] "GET /robots.txt HTTP/1.1" 302 -
220.181.108.162 - - [18/Dec/2018:00:19:16 +0800] "GET /robots.txt HTTP/1.1" 404 1239

我这里使用文件查找找到2个相关IP，再使用nslookup ip和host ip 的方法查询一下。linux上的操作如下：

[root@izbp1a5dj7mkwz ~]# nslookup 123.125.71.57
Server:		100.100.2.136
Address:	100.100.2.136#53

Non-authoritative answer:
57.71.125.123.in-addr.arpa	name = baiduspider-123-125-71-57.crawl.baidu.com.
Authoritative answers can be found from:

[root@izbp5dj7mkwz ~]# nslookup 220.181.108.162
Server:		100.100.2.136
Address:	100.100.2.136#53

Non-authoritative answer:
162.108.181.220.in-addr.arpa	name = baiduspider-220-181-108-162.crawl.baidu.com.
Authoritative answers can be found from:

host查询命令如下：

[root@iz7ra5dj7mkwz ~]# host 123.125.71.57
57.71.125.123.in-addr.arpa domain name pointer baiduspider-123-125-71-57.crawl.baidu.com.
[root@ira5dj7mkwz ~]# host 220.181.108.162
162.108.181.220.in-addr.arpa domain name pointer baiduspider-220-181-108-162.crawl.baidu.com.

通过这些基本就可以分析出百度蜘蛛的访问记录，每天什么时间段访问你的网站，访问了哪些地址，访问状态和访问耗时多少，针对性的去优化

分享到：

编辑发布时间：2019-12-15 15:17:45

点击排行榜

支付行业常用名词术语解释
备付金存管银行是指可以为支付机构办理客户备付金的跨行收付业务，并负责对支付机构存放在所有备付金银行的客户备付金信息进行归集、核对与监督的备付金银行。(支付机构客
CentOS服务器上mysql数据库优化过程分析（一）
最近有一套生产系统的数据库CPU老是偏高，发现闲时也在40%-60%左右，感觉很不正常，决定优化一下，在这
一元购模式分享
首先需要知道什么叫一元购？就是你支付一元后获得一个购物资格，有的叫抽

官方微信公众号

内有1000G各行业资料

您现在的位置是：首页 > 云笔记 > SEO学习 > 文章详情

怎样判断网站的访问记录中有百度蜘蛛来访

标签云

点击排行榜

官方微信公众号

广告栏