企师爷

请上传logo 请上传logo

提高spider抓取的策略(2)

2022-01-13 11:16:05 胡斌

SEO优化人员日常工作的一部分,就是观察搜索引擎蜘蛛有没有访问自己优化的网站、是否有内容被收录、不被收录的内容有哪些、以及如何调整网站提高网站收录量。

为了提高搜索引擎蜘蛛的爬行频率,之前给大家简单介绍了提高spider抓取网站策略的两种方法,另外还有五个策略接着给分享给大家。

三、多种URL重定向的识别

为了使spider能够识别各种URL重定向,有三种类型的重定向:http30x重定向、meta-refresh重定向和JS重定向。此外,百度还支持Canonical标签。

四、抓取优先级调配

搜索引擎在抓取网站页面的时候,是不会100%抓取的。因此,我们需要在抓取系统中设计抓取优先级分配。抓取优先级分配包括:宽度优先遍历策略、PR优先遍历策略、深度优先遍历策略等。根据实际情况,结合多种策略改善抓取效果。


五、重复URL的过滤

如果网站中有太多重复的网址,这将会降低网站的权重。重复页面可以使用301重定向来定义服务器端的标准URL,将非标准URL 301重定向到标准URL。


六、暗网数据的获取

暗网数据即搜索引擎无法抓取的数据。主要原因是网站上的数据在网络数据库中,spider很难抓取中获得完整内容;其次,网络环境和网站本身不符合标准,导致搜索引擎无法抓取。

要解决这个问题,建议去百度站长平台提交数据来解决。


七、抓取反作弊

搜索引擎蜘蛛在爬行过程中会抓取低质量页面或被黑的页面。通过对URL特性、页面大小等原因的分析,完美捕捉反作弊

工作时间:09:00-18:00
0731-8552-2587
关注我们

关注“柒点传媒”

关注“企师爷”

首页
产品
投资
联系