您现在的位置是:首页 >  云笔记 >  SEO学习 >  文章详情

怎样判断网站的访问记录中有百度蜘蛛来访

admin   2019-12-15 15:17:45   165人已围观

        在做网站优化的过程中经常要判断我们提交给搜索引擎的网页地址是否被搜索引擎的蜘蛛访问过,在这里简单的记录一下我自己学习分析的方法。

第一步,需要认识什么是百度蜘蛛

        我们需要知道什么是百度蜘蛛,知道它在访问我们网站过程中留下那些痕迹,我这里引用百度官方的介绍:https://ziyuan.baidu.com/college/articleinfo?id=1295 (正确识别百度蜘蛛),基本就2种手段:识别UA和反查IP。

第二步,识别百度蜘蛛的UA记录

       这种方式根据你使用的网站编程语言,应用服务器软件这些具体操作都有所不同,但都可以通过记录访问日志来追踪百度蜘蛛的访问记录。我这里以我自己的情况为例来说明我的做法,我是JAVA开发的网站tomcat发布在linux上面。我在我的网站上写了一个访问拦截器,所有的访问者都要记录UA信息到日志中,相关代码如下:

String userAgent=request.getHeader("User-Agent");
logger.info("***userAgent="+userAgent);

需要查看的时候下载日志对比上面百度公布的百度蜘蛛UA来核实

第三步,反查IP来查看百度蜘蛛记录

        我这里还是以我自己的tomcat服务器来说明,tomcat的logs目录下面有一种localhost_access_log.日期.txt的日志,下载下来查看凌晨大概01-05点之间的访问日志,观察进来第一个就访问:GET /robots.txt 文件的日志,把相关IP记录下来:

123.125.71.57 - - [18/Dec/2018:00:19:15 +0800] "GET /robots.txt HTTP/1.1" 302 -
220.181.108.162 - - [18/Dec/2018:00:19:16 +0800] "GET /robots.txt HTTP/1.1" 404 1239

我这里使用文件查找找到2个相关IP,再使用nslookup ip和host ip 的方法查询一下。linux上的操作如下:

[root@izbp1a5dj7mkwz ~]# nslookup 123.125.71.57
Server: 100.100.2.136
Address: 100.100.2.136#53

Non-authoritative answer:
57.71.125.123.in-addr.arpa name = baiduspider-123-125-71-57.crawl.baidu.com.
Authoritative answers can be found from:

[root@izbp5dj7mkwz ~]# nslookup 220.181.108.162
Server: 100.100.2.136
Address: 100.100.2.136#53

Non-authoritative answer:
162.108.181.220.in-addr.arpa name = baiduspider-220-181-108-162.crawl.baidu.com.
Authoritative answers can be found from:

host查询命令如下:

[root@iz7ra5dj7mkwz ~]# host 123.125.71.57
57.71.125.123.in-addr.arpa domain name pointer baiduspider-123-125-71-57.crawl.baidu.com.
[root@ira5dj7mkwz ~]# host 220.181.108.162
162.108.181.220.in-addr.arpa domain name pointer baiduspider-220-181-108-162.crawl.baidu.com.

通过这些基本就可以分析出百度蜘蛛的访问记录,每天什么时间段访问你的网站,访问了哪些地址,访问状态和访问耗时多少,针对性的去优化




分享到:

编辑发布时间:2019-12-15 15:17:45