一般网站在默认情况下是允许所有搜索引擎收录抓取网站内容信息的,不过并不是每个人都想自己的网站内容被搜索引擎索引到,尤其是网站涉及到个人的隐私等,不想让搜索引擎收录抓取而公布于天下。目前很多SNS网站以及网店为了保护用户信息安全,从而禁止搜索引擎收录抓取网站内容。如何禁止搜索引擎收录抓取网页呢?下面为大家介绍一下具体方法。
搜索引擎抓取网页是通过蜘蛛程序或者是网页机器人进行的,所以要禁止搜索引擎收录,只要拒绝蜘蛛程序就可以了,因此可以通过编写robots.txt文件或者在网页加入相应代码来实现禁止收录的目的。
第一,通过编写robots.txt文件禁止搜索引擎收录。
各大搜索引擎都遵守robots.txt协议的,因此只要在网站根目录下创建robots.txt文件,编辑正确的代码,就可以实现是否允许搜索引擎收录的目的。具体方法如下:
1、禁止所有搜索引擎收录的robots.txt文件代码编写方法。(注意Disallow后面的/,如果没有,则为允许所以搜索引擎收录抓取。)
User-agent: *
Disallow: /
2、禁止特定搜索引擎收录抓取网站。有时候可能会不想某一个特定搜索引擎抓取自己网站的内容信息,这时候又该如何编写robots.txt文件呢?
禁止百度收录抓取网站的方法,即仅禁止Baiduspider访问您的网站,而其他搜索引擎如Google、雅虎等则可顺利访问收录您的网站。这时候的robots.txt文件编写如下:
User-agent: Baiduspider
Disallow: /
如果想仅禁止Google收录,则将上面Baiduspider换成googlebot就可以了。同理也可以禁止雅虎、MSN搜索等特定搜索引擎的收录。
第二,通过在网页中加入代码的方法禁止搜索引擎收录。
在网站首页代码<head>与</head>之间,加入<meta name="robots" content="noarchive">代码,此标记禁止搜索引擎抓取网站并显示网页快照。
以上是通过禁止搜索引擎程序访问网站来禁止搜索引擎收录抓取,但有些搜索引擎并不遵守robots.txt协议,很多禁止收录的网页依然会出现在搜索结果中,从而出现禁止不了的情况。这时候可以通过联系搜索引擎的管理工作人员,直接协商删除相应的收录。
(本文来源:网络营销新思维)

RSS订阅