robots.txt文件的写法及与nofollow的区别

  • 酉灿
  • SEO
  • Jul 29, 2021

相信做过SEO的朋友们都知道影响网站排名的因素除了外链、内容等主要因素外,良好的网站内部优化同样可以提高网站排名。那么除了这些还有没有其他相关因素呢?当然有,网站的robots文件就是其中重要一环。而robots文件最主要的作用就是禁止搜索引擎抓取你认为重要的不宜公开的文件。

优推网在网站上线前做的最多的工作除了检查网站内部链接及死链等,robots文件的提交也是重要一环。那么我们今天主要谈谈如何运用好robots文件(这点对于大型网站格外重要)。

首先,开源节流是做seo的关键所在,所谓开源就是通过发外链、换友链、提交目录和注册b2b平台等方式进行网站推广的行为,而节流则是通过网站结构优化、页面优化、关键词优化、内部链接等方法提高对搜索引擎的友好度,robots与nofollow的运用则是节流中的重要一环。

有些朋友可能对robots与nofollow的概念有所混淆,实际上robots是禁止搜索引擎抓取页面,而nofollow则是禁止链接向外部域名传递权重

先从robots文件讲起,搜索引擎蜘蛛在访问网站时,首先会查看根目录有没有命名为robots.txt的文件。大家肯定都知道搜索引擎抓取页面的时间有限,尤其是对于内容非常多的新站来讲,通常搜索引擎是很难抓取页面中所有内容的。这种情况会对网站的收录产生很大的影响,所以我们要做的就是将网站中无关紧要的内容和机密文件写在robots中,减少搜索引擎抓取时的工作量,增加其他页面的抓取机会。

robots.txt放在网站的根目录下即可,即使网站没有禁止抓取的需要,同样建议大家放一个空的robots文件,有些服务器在robots不存在时会返回200状态码以及一些错误问题。

织梦后台根目录
织梦后台根目录

通常情况下可以用以下格式,其中星号(*)为通配符,即User-agent:  * 意为所有搜索引擎。
Disallow:/ 每行一个,在后面添加目录或者某页面,类似于相对路径。如http://www.example.com/bin/#comments,其中/bin/为目录url,以下以优推网的某个网站robots为例。
User-agent: *
Disallow: /bin/
Disallow: /cgi-bin/
Disallow: /data/
Disallow: /g*og/
Disallow: /include/
Disallow: /member/
Disallow: /plus/
Disallow: /special/

Sitemap: http://www.example.com/sitemap.xml
其中Disallow: /bin/意思是指禁止所有引擎抓取bin目录下的所有文件。

如果robots文件写成
User-agent: Googlebot
Disallow: /bin/

即为禁止谷歌抓取bin目录下的所有文件

两大巨头搜索引擎蜘蛛名称:

百度蜘蛛:Baiduspider

谷歌蜘蛛:Googlebot

想要了解更多的搜索引擎蜘蛛可以百度一下。

如果仅抓取某目录下的某页面,可以按照下面的写法,意为仅抓取/bin/目录下的/xjbd页面。
Disallow: /bin/
Allow: /bin/xjbd/

最后可以把网站地图放在robots文件里面。然后保存并命名为robots.txt,上传到网站的根目录即可。
————————————————————————————————————————————————
下面来讲讲经常与robots.txt混为一谈的nofollow的使用方法,首先来看一个a标签连接:<a href=”#” rel=”nofollow”>优推网</a>,其中rel=”nofollow”则意为禁止传递权重。

大家都知道一个页面会向其内部链接传递权重。就好比我们手里有100块钱,但是有很多需要花钱的地方,于是我们会把更多的钱花在有意义的事情上,控制权重的传递也是这个道理。一个页面上总有一些连接与主题无关,比如链接到其他网站的URL,如果不加nofollow,页面的权重便会传递到这些链接上面,总之合理地使用nofollow会对你的网站排名带来一定的影响。

打赏