王立建SEO工作室十年经验老司机,提供企业网站优化排名服务 王立建 手机:18003190145 QQ:200898432

网站robots.txt文件的作用和写法

网站robots.txt主要作用:禁止收录
robots.txt是一个简单的txt文档,搜索引擎机器人通过里面的指令,理解该网站是否可以全部抓取,或者部分抓取。
搜索引擎机器人每次来抓取网站,都会先访问网站的robots.txt,如果不存在该文件,则搜索引擎机器人默认该网站允许其全部抓取。

网站robots.txt限制指令写法
robots.txt的内容主要就是一个限制指令:Disallow

王立建SEO博客的robots.txt文件写法

User-agent: * 这里说明本rotots.txt针对哪一个搜索引擎蜘蛛而言。星号代表所有搜索引擎蜘蛛,包括百度、360、搜狗等。

Disallow: /zb_system/ 说明不允许收录/zb_system/里的所有文件王立建SEO博客是ZBLOG程序,管理后台等重要执行文件都在/zb_system/这个目录里,自然要禁止抓取。

Disallow: /zb_users/ 说明不允许收录/zb_users/里的所有文件。这个文件里面是博客的模板和上传的图片等文件,没有必要让蜘蛛抓取,所以屏蔽掉。

Disallow: /catalog.asp? 说明不允许收录以/catalog.asp?为前缀的链接,比如ZBLOG的各种栏目页和翻页链接等,其实我在前台模板也把这些链接屏蔽掉了,没有入口的。

Sitemap: http://www.wanglijian.com/sitemap.txt 除了限制指令之外,还可以将sitemap放在robots.txt里面。

网站robots.txt放在哪里
robots.txt应该上传到网站的根目录下。上传之后,通过浏览器应该可以正常访问。本博客的robots.txt在这里:www.wanglijian.com/robots.txt

如何验证网站robots.txt的写法是否正确

检测并更新网站robots文件

写好并上传robots.txt文件后,请登录百度站长工具后台,进行robots文件验证。多验证几条重要的链接,看看是否与自己的预期相一致,是否有重要链接被误伤。

验证重要链接是否允许抓取

网站robots.txt限制如何解除
如果要解除对搜索引擎蜘蛛的抓取限制,则只需要把robots.txt中的相关限制指令删除即可。
如果想加快网站页面被抓取收录的进度,请参考这里:新站提交百度教程