试图在nginx中使用以下行为
使用浏览器时,每个ip的默认速率限制为1r / s.
bing和google蜘蛛的速率限制为10r / s.
拒绝坏机器人.
不幸的是谷歌没有发布googlebot的IP地址所以我只限于使用者.
到目前为止,这已经接近:
http {
# Rate limits
map $http_user_agent $uatype {
default 'user';
~*(google|bing|msnbot) 'okbot';
~*(slurp|nastybot) 'badbot';
}
limit_req_zone $binary_remote_addr zone=one:10m rate=1r/s;
limit_req_zone $binary_remote_addr zone=two:10m rate=10r/s;
...
server {
...
location / {
if ($uatype == 'badbot) {
return 403;
}
limit_req zone=one burst=5 nodelay;
if ($uatype != 'user') {
limit_req zone=two burst=10 nodelay;
}
...
}
...
}
}
但是 – ‘if’不允许这样做.
$nginx -t
nginx:在/etc/nginx/nginx.conf中不允许使用[emerg]“limit_req”指令
nginx:配置文件/etc/nginx/nginx.conf测试失败
在nginx论坛上有很多未经测试的建议,大多数甚至都没有通过configtest.
看起来很有希望的是Nginx Rate Limiting by Referrer? – 该版本的缺点是所有配置都针对每个不同的限制重复(我有很多重写规则)
谁有好事?
不幸的是你无法以这种方式动态化,限制请求模块不支持这一点.
您找到的链接可能是实现此目的的唯一方法.使用include指令“避免”重复配置.
但是,如果第三方爬虫突然冒充一个好机器人用户代理怎么办?