gravatar头像龙笑天  3个月前 (09-13) 来源:张戈博客 隐藏边栏 |   8 条评论  255 
文章评分 14 次,平均分 4.9

服务器反爬虫攻略:Apache/Nginx/PHP禁止某些User Agent抓取网站 wordpress

我们都知道网络上的爬虫非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots规则对服务器造成压力,还不能为网站带来流量的无用爬虫,比如YY蜘蛛(YisouSpider)。最近张戈发现nginx日志中出现了好多宜搜等垃圾的抓取记录,于是整理收集了网络上各种禁止垃圾蜘蛛爬站的方法,在给自己网做设置的同时,也给各位站长提供参考。

一、Apache

①、通过修改 .htaccess文件

修改网站目录下的.htaccess,添加如下代码即可(2种代码任选):

可用代码 (1):

可用代码 (2):

②、通过修改httpd.conf配置文件

找到如下类似位置,根据以下代码 新增 / 修改,然后重启Apache即可:

二、Nginx代码

进入到nginx安装目录下的conf目录,将如下代码保存为 agent_deny.conf

cd /usr/local/nginx/conf

vim agent_deny.conf

然后,在网站相关配置中的 location / { 之后插入如下代码:

如张戈博客的配置:

保存后,执行如下命令,平滑重启nginx即可:

三、PHP代码

①、PHP通用版

将如下方法放到贴到网站入口文件index.php中的第一个 <?php之后即可:

②、Wordpress适用版

将下面的代码贴到 functions.php 中的最后一个 ?>之前即可:

四、附录:UA收集

下面是网络上常见的垃圾UA列表,仅供参考,同时也欢迎你来补充。

本文的方法也可用来防止镜像:具体详见《网站被恶意镜像怎么办 一段代码轻松搞定(全面版)

 

除特别注明外,本站所有文章均为龙笑天下原创,转载请注明出处来自http://www.ilxtx.com/anti-web-spiders.html

gravatar头像
龙笑天 最后编辑于:2016-09-14
互助分享,互联网本该如此!

发表评论

表情 链接 贴图 私信 格式 签到

最赞评论
  1. gravatar头像
    龙笑天 年费会员 博 主

    @憧憬Licoy确实是这样,他们的技术也在更新,防不胜防啊~

    2016-09-15 11:41 来自Android客户端
    1 0
  2. gravatar头像
    憧憬Licoy 来自天朝的朋友 谷歌浏览器 Windows 10 四川省 电信

    网络上恶意镜像网站的网站比比皆是。

    2016-09-14 12:40
    1 0
  3. gravatar头像
    管家婆 评论达人 LV.1 来自天朝的朋友 谷歌浏览器 Windows 7 北京市 联通

    有的蜘蛛确实不遵守协议

    2016-09-14 11:43
    1 0
  1. gravatar头像
    Koolight 评论达人 LV.3 来自天朝的朋友 谷歌浏览器 Windows 7 湖北省 联通

    我之前试过一次,出错了,后来就没再屏蔽过蜘蛛,有空再折腾下这个。

    4楼 2016-09-17 23:25
    0 0 回复
  2. gravatar头像
    我爱动感单车网 评论达人 LV.2 来自天朝的朋友 谷歌浏览器 Windows XP 广西桂林市 电信

    目前,还不关心这个。

    地板 2016-09-17 12:36
    0 0 回复
  3. gravatar头像
    憧憬Licoy 来自天朝的朋友 谷歌浏览器 Windows 10 四川省 电信

    网络上恶意镜像网站的网站比比皆是。

    板凳 2016-09-14 12:40
    1 0 回复
  4. gravatar头像
    管家婆 评论达人 LV.1 来自天朝的朋友 谷歌浏览器 Windows 7 北京市 联通

    有的蜘蛛确实不遵守协议

    沙发 2016-09-14 11:43
    1 0 回复
切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录。
快捷登录后,请完善资料中的电子邮件地址,可及时收到回复邮件通知和用于登录!

切换登录

注册

扫一扫二维码分享