如何识别Baiduspider的真假,判断真实蜘蛛爬虫

发表时间:2019-09-24 11:28 | 分类:建站经验 | 浏览:1,563 次

在网站日志中,我们经常可以看到很多蜘蛛爬虫来访问我们的网站,其中就包括搜索引擎,例如国内最常见的baiduspider。以百度baiduspider为例,通常我们通过User-Agent判断。但是User-Agent是可以模拟的,所以很多时候也会有虚假的模拟伪装成百度蜘蛛来抓取,这时候我们就需要学会分辨真伪。

User-Agent伪装参考:https://zhangnq.com/2289.html,https://zhangnq.com/2241.html

百度的User-Agent

百度pc端的爬虫UA:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
百度移动端的爬虫UA:

Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

如何识别Baiduspider

1、首先看日志中是否包含Baiduspider;

2、想区分pc端和移动端,再判断是否包含Mobile、Android或iPhone字样;

3、检查IP地址是否是真的Baiduspider;

如何检查IP是否是Baiduspider

Windows

点击“开始”菜单 -> 点击“运行” -> 弹出cmd窗口 -> 输入“nslookup 要查询的ip地址”,按回车键,就会有结果输出。回车后的结果如果包含x x.baidu.com 或x x.baidu.jp 这两种格式,就说明是真的baiduspider。

201909241118

Linux

liunx使用的命令是“host 要查询的ip地址”,其判断逻辑与windows系统一样。

20190924111916

也可以使用一下本站提供的检查工具,支持百度baiduspider,谷歌googlebot,bingbot和360spider等搜索引擎蜘蛛的真假识别。

网址:http://tool.sijitao.net/network/spider/check

20190924112227

搜索引擎真假蜘蛛爬虫识别就到这里,有需要可以把服务器上假的搜索引擎蜘蛛屏蔽掉了。

本文标签:

本文链接:https://www.sijitao.net/3114.html

欢迎您在本博客中留下评论,如需转载原创文章请注明出处,谢谢!

一键脚本 博客历程 留言联系 文章归档 网站地图 谷歌地图
Copyright © 2010-2024 章郎虫博客 All Rights Reserved.