LXTX
龙笑天龙笑天  2016-09-13 22:07 来源:张戈博客 隐藏边栏 |   10 条评论  757 
文章评分 19 次,平均分 4.9

服务器反爬虫攻略:Apache/Nginx/PHP禁止某些User Agent抓取网站 wordpress

我们都知道网络上的爬虫非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守 robots 规则对服务器造成压力,还不能为网站带来流量的无用爬虫,比如 YY 蜘蛛(YisouSpider)。最近张戈发现 nginx 日志中出现了好多宜搜等垃圾的抓取记录,于是整理收集了网络上各种禁止垃圾蜘蛛爬站的方法,在给自己网做设置的同时,也给各位站长提供参考。

一、Apache

①、通过修改 .htaccess 文件

修改网站目录下的.htaccess,添加如下代码即可(2 种代码任选):

可用代码 (1):

可用代码 (2):

②、通过修改 httpd.conf 配置文件

找到如下类似位置,根据以下代码 新增 / 修改,然后重启 Apache 即可:

二、Nginx 代码

进入到 nginx 安装目录下的 conf 目录,将如下代码保存为 agent_deny.conf

cd /usr/local/nginx/conf

vim agent_deny.conf

然后,在网站相关配置中的 location / { 之后插入如下代码:

如张戈博客的配置:

保存后,执行如下命令,平滑重启 nginx 即可:

三、PHP 代码

①、PHP 通用版

将如下方法放到贴到网站入口文件 index.php 中的第一个 <?php之后即可:

②、Wordpress 适用版

将下面的代码贴到 functions.php 中的最后一个 ?>之前即可:

四、测试效果

如果是服务器的话,就很简单,直接通过 curl 命令来检测;当然,如果是虚拟主机的话,也可以通过百度站长平台里的“抓取诊断”来测试~ 下面以服务器为例:

模拟 YY 蜘蛛抓取:

模拟 UA 为空的抓取:

模拟百度蜘蛛的抓取:

三次抓取结果显示,YY 蜘蛛和 UA 为空的返回是 403 禁止访问标识,而百度蜘蛛则成功返回 200,说明生效!

五、附录:UA 收集

下面是网络上常见的垃圾 UA 列表,仅供参考,同时也欢迎你来补充。

本文的方法也可用来防止镜像,具体详见:

网站被恶意镜像怎么办 一段代码轻松搞定(全面版)
本文粗略的介绍什么是恶意镜像网站,以及相关防范镜像的方法,如有错误或遗漏,敬请不宁赐教。【20171022 重要更新,详情请看方法 4~】...
阅读:5.19k   评论:209   喜欢:42   评分:

本文转载自张戈博客,本文观点不代表龙笑天下立场,版权归原作者所有,欢迎分享本文,转载请保留出处!

龙笑天
龙笑天 关注:24    粉丝:12 最后编辑于:2018-05-27
互助分享,互联网本该如此!
×

感谢您对龙笑天的支持,么么哒~

支付宝打赏 龙笑天
请扫码随意打赏

打开支付宝扫一扫,即可进行扫码打赏哦

龙笑天下 - 分享悲伤;共享快乐

发表评论

表情 贴图 链接 私密 格式 签到

最赞评论
  1. 龙笑天
    龙笑天 永久会员 博 主 来自天朝的朋友 谷歌浏览器  CHM-TL00H Build/HonorCHM-TL00H) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/39.0.0.0 Mobile Safari/537.36 Appcan/3.1

    @憧憬Licoy确实是这样,他们的技术也在更新,防不胜防啊~

  2. 憧憬Licoy
    憧憬Licoy 来自天朝的朋友 谷歌浏览器 Windows 10 四川省 电信

    网络上恶意镜像网站的网站比比皆是。

  3. 管家婆
    管家婆 评论达人 LV.1 来自天朝的朋友 谷歌浏览器 Windows 7 北京市 联通

    有的蜘蛛确实不遵守协议

  1. boke112导航
    boke112导航 评论达人 LV.3 来自天朝的朋友 谷歌浏览器 Windows XP 广西南宁市 电信

    这个还是挺有用的,我就是用这个来禁止一搜的蜘蛛爬行

    5楼 2016-12-15 11:58
    0 0 回复
  2. Koolight
    Koolight 评论达人 LV.3 来自天朝的朋友 谷歌浏览器 Windows 7 湖北省 联通

    我之前试过一次,出错了,后来就没再屏蔽过蜘蛛,有空再折腾下这个。

    4楼 2016-09-17 23:25
    0 0 回复
  3. 我爱动感单车网
    我爱动感单车网 评论达人 LV.3 来自天朝的朋友 谷歌浏览器 Windows XP 广西桂林市 电信

    目前,还不关心这个。

    地板 2016-09-17 12:36
    0 0 回复
  4. 憧憬Licoy
    憧憬Licoy 来自天朝的朋友 谷歌浏览器 Windows 10 四川省 电信

    网络上恶意镜像网站的网站比比皆是。

    板凳 2016-09-14 12:40
    1 0 回复
  5. 管家婆
    管家婆 评论达人 LV.1 来自天朝的朋友 谷歌浏览器 Windows 7 北京市 联通

    有的蜘蛛确实不遵守协议

    沙发 2016-09-14 11:43
    1 0 回复
切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

切换登录

注册

您也可以使用第三方帐号一键快捷注册

扫一扫二维码分享