客服中心

帮助中心
备案专题
其他问题
资料文档下载
支付问题
网站开发问题
数据库问题
IDC托管问题
IDC租用问题
网站营销问题
企业邮局问题
域名注册问题
虚拟主机问题
云服务器问题

虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法

问题场景:
客户使用虚拟主机,网站被搜索引擎爬虫访问耗费大量流量和带宽,如何处理。
解决方法:
可以通过在站点根目录下创建 Robots.txt,Robots.txt 文件是网站的一个文件,搜索引擎蜘蛛抓取网站首先就是抓取这个文件,根据里面的内容来决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制蜘蛛的爬取路径。
1. 首先,先了解一下目前搜索引擎和其对应的 User-Agent,如下:
搜索引擎         User-Agent
AltaVista        Scooter
baidu            Baiduspider
Infoseek         Infoseek
Hotbot           Slurp
AOL Search       Slurp
Excite           ArchitextSpider
Google           Googlebot
Goto             Slurp
Lycos            Lycos
MSN              Slurp
Netscape         Googlebot
NorthernLight    Gulliver
WebCrawler       ArchitextSpider
Iwon             Slurp
Fast             Fast
DirectHit        Grabber
Yahoo Web Pages  Googlebot
LooksmartWebPages Slurp 
 
2. Robots.tx t样例代码:
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: 
Disallow: /
2. 允许所有的搜索引擎访问网站的任何部分
User-agent: 
Disallow:
例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
例4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:
例5. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事项:
·         三个目录要分别写。
·         请注意最后要带斜杠。
·         带斜杠与不带斜杠的区别。
例6. 允许访问特定目录中的部分url
实现a目录下只有b.htm允许访问
User-agent: *
Allow: /a/b.htm
Disallow: /a/
 
产品购买
域名注册
云服务器
云空间
虚拟主机
服务器租用
服务器托管
企业邮箱
短信平台
开发业务
品牌互动网站设计
电子商务网站
政府/门户大型网站
程序开发
Android开发
Ios(iphone/ipad)开发
APP Store发布
服务与支持
注册/登录
支付方式
帮助中心
提交工单
常用文档下载
产品价格总览
域名注册攻略
如何选择虚拟主机
备案专区
人文精神
我们是谁
公司实力
发展历程
人文观点
案例中心
联系我们
招聘信息
资讯中心
全站导航
扫描关注官方微信
手机人文
全国统一服务热线:
028-67876131
海外用户请拨打:028-86619097 86619137
成都总公司:四川人文在线网络服务有限公司
总公司地址:成都市顺城大街308号冠城广场15楼H


提交工单