对于SEO优化,我们都知道搜索引擎是通过蜘蛛爬行进入页面的,所以了解搜索引擎的变化是很有必要的。搜索引擎蜘蛛是每个人都写的机器,一定有一定的规律。
一、搜索引擎蜘蛛的爬行规律
1.优质网站专门分配给蜘蛛爬行,及时爬行,及时收藏,及时发布供网友搜索;
2、普通网站,分配一定量的蜘蛛爬行资源,爬至一定量不爬行;
根据以上两种抓取原理,匹配两种抓取方式:水平抓取和纵向抓取;
网页抓取规则:遵循F型抓取规则,从左到右,从业务到底层进行抓取。
一般新上线的网站需要一段时间才能进入。搜索引擎进入网站时,通常是从首页收录,然后沿着首页进入内页。搜索引擎很“花里胡哨”,它不是一次性抓取所有网站,而是在不同时间段抓取,然后计算蜘蛛在网站上的活动时间和时长。
即使对新站的页面进行抓取,也不会立即发布。需要经过搜索引擎的反复核算,确实需要承认进入了网站,那么页面才会发布。一般新站的网站快照和进入页面一周后才会发布。
一定要记住下面这段话:搜索引擎蜘蛛在抓取网站时,一定不能出现网站打不开或者可能出现死链的情况。如果出现这种情况,搜索引擎会持续抓取网站,不确定以后什么时候会回来。有很多人有一个坏习惯和一个好的猜测。域名越老,越受搜索引擎的青睐。
人很多,网站刚完成主页,马上上线。主页上的大部分连接都是死链。搜索引擎蜘蛛进入后,在抓取网站内页时无法进入,大大降低了网站的形象,进而减少了抓取网站的数量。假设下次来的时候网站还是一样,那么搜索引擎蜘蛛就会不友好,认为是低质量的网站。毕竟它放弃了爬网站。
网站成功上线一段时间后,将进入稳定期。百度和谷歌会给新站一个检查期,检查期过后会认为网站是长期网站,持续3-6个月。搜索引擎蜘蛛往往在稳定期来到网站,仍然从首页进入网站进行抓取,就像前期一样。
百度与谷歌略有不同。如果百度发现网站首页内容没有变化,会立即停止抓取;然而,谷歌并非如此。即使发现网站首页没有变化,也会照常沿着首页的连接继续爬行,这也是部分网站进入页面比百度多的原因之一。
更新网站内容时,一定要显示在网站首页,否则百度蜘蛛不会进入更新页面,因为首页没有变化,百度蜘蛛也没有爬上内页,所以不知道会不会爆发新的页面。这也是一些公司网站经常犯的错误之一。首页内容死气沉沉,无法更改,使得网站的输入量不变。稳定期的网站快照和词条页面通常在最后两天发布。搜索引擎也是如此,网站形象好,经常来,经常更新网站快照,经常进入页面;假设网站形象不好,就要先支持网站,只有网站稍微有“抓边”的嫌疑,被封杀的可能性才会很高。
第二,外链是否具有时效性
几年前,中国的博客(可能是2016年因为流量过大被删了)已经被删了,但百度还有快照今天,看了首页的快照,没了,但文章页面还存在。看快照日期,可以看到是2016年甚至更久。
也就是说,虽然页面已经删除了5年,但是百度的快照还没有删除,那么你觉得里面的链接蜘蛛会爬吗?感觉应该会爬了,我在博客网的博客有一个域名A的链接,刚跳到博客首页。后来我用域名A开了博客,立刻获得了不错的权重,文章几秒钟就轻松收到。相信这个环节在五年前已经发挥了很多作用。
如果外链所在页面搜索引擎没有快照,外链有效吗?这个答案可能会让很多人感到惊讶。如果页面上没有快照,外链所仍然可以有效。原因可以在我关于蜘蛛如何抓取链接的文章中找到。蜘蛛抓取页面后,会将内容和链接分开。链接,也就是网址,将被添加到网站索引数据库中,蜘蛛从该数据库中爬行。
先看证据,这个证据来自谷歌站长工具:这个截图来自谷歌站长工具故障诊断404报告。之前在原网站下建立了一个论坛,但早在N年前就被删除了。但是这个不存在的页面,谷歌蜘蛛抓取的源地址,也是一个不存在的页面。然而,谷歌搜索没有这些页面的快照。这是否意味着长期404的页面上的导出链接仍然有效?
第三,外链对搜索引擎有时效性吗?
显然它应该是时间敏感的。那么我猜测外部链接失败的原因。应该有两个原因:页面上的外链所被删除或者链接被删除。
1.鉴于该页面被删除的情况,搜索引擎应该继续抓取该页面上的外部链接,直到在该页面404之后某个时间过去,然后向搜索引擎URL索引数据库给出删除该外部链接的命令。
2.在页面发生变化的情况下,搜索引擎也应该抓取外链,直到包含外链的快照在搜索引擎内部被完全删除,并且会给URL索引数据库一个删除外链的命令。因为有外部链接的页面会根据情况保存N期的快照,这也是为什么有时候搜索的词不一样,网页的快照也不一样。
文章转自微信官方账号:SEO战斗营(ID: ilottecn),原地址:/s/R-6f0iZF6IJb9l9g7Vtkiw