虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法

帮助中心

资料文档下载

常用文档下载

备案专题

网站备案
管局规则
备案常见问题
备案通告

域名注册问题

域名专题
中文域名

云服务器问题

云快照--数据备份
购买
常见问题
远程连接
人文远程桌面
云服务器专栏

虚拟主机问题

虚拟主机基础知识
常见问题及技术支持
ftp空间上传管理
主机产品管理
购买和续费
虚拟主机

IDC托管问题

IDC租用问题

企业邮局问题

企业邮局

数据库问题

数据库专栏

支付问题

付款问题
续费问题

网站开发问题

网站建设
智能建站

网站营销问题

备案专题

其他问题

网站公告
网络学院
独立主机专栏
代理专栏
网站推广
注册会员

ssl证书

帮助中心 > 虚拟主机问题 > 常见问题及技术支持

虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法

问题场景：
客户使用虚拟主机，网站被搜索引擎爬虫访问耗费大量流量和带宽，如何处理。
解决方法：
可以通过在站点根目录下创建 Robots.txt，Robots.txt 文件是网站的一个文件，搜索引擎蜘蛛抓取网站首先就是抓取这个文件，根据里面的内容来决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下，从而有效的控制蜘蛛的爬取路径。
1. 首先，先了解一下目前搜索引擎和其对应的 User-Agent，如下：
搜索引擎         User-Agent
AltaVista        Scooter
baidu            Baiduspider
Infoseek         Infoseek
Hotbot           Slurp
AOL Search       Slurp
Excite           ArchitextSpider
Google           Googlebot
Goto             Slurp
Lycos            Lycos
MSN              Slurp
Netscape         Googlebot
NorthernLight    Gulliver
WebCrawler       ArchitextSpider
Iwon             Slurp
Fast             Fast
DirectHit        Grabber
Yahoo Web Pages Googlebot
LooksmartWebPages Slurp

2. Robots.tx t样例代码：
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent:
Disallow: /
例2. 允许所有的搜索引擎访问网站的任何部分
User-agent:
Disallow:
例3. 仅禁止Baiduspider访问您的网站
User-agent: Baiduspider
Disallow: /
例4. 仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Disallow:
例5. 禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/
注意事项：
·         三个目录要分别写。
·         请注意最后要带斜杠。
·         带斜杠与不带斜杠的区别。
例6. 允许访问特定目录中的部分url
实现a目录下只有b.htm允许访问
User-agent: *
Allow: /a/b.htm
Disallow: /a/

这条帮助是否解决了您的问题？已解决未解决

下一篇：FTP使用帮助：当ftp遇到 Socket.. ERROR的时候