网页内容质量低
页面的内容质量是搜索引擎蜘蛛判断这个页面价值的重要因素。
页面内容包含:一是模板重复,二是文章重复。采集软件的普及让做网站太简单了,各类“剽窃”文章的工具、各CMS的采集和自助建站功能让很多站长一夜之间创造成千上万的网页,再加上对采集规则的不灵活,伪原创一塌糊涂。
互联网上高度重复的内容太多了。难道百度蜘蛛还不吃腻?大家采来采去都是同一个东西,可能你一下子就被百度收录了几百上千,但百度规劝重新进行筛选,如果都是千篇一律的东西,百度一看就对你反感了。虽然原创很难,但是这里并不建议网站大量的完全采集,我们可以进行适当的采编,根据文章的中心思想结合自己的东西,这样发表出的一篇就是所谓的原创了。
解决办法:给没有收录的页面根据相关性的原则改一下标题,增加相关内容,这样蜘蛛会认为是一个新的页面从而重新对页面进行判定,可以大大增加被收录的几率!
页面过度优化
百度对SEO过度的网站惩罚是越来越严重了,会造成百度收录变少或没收录。内容才是最重要的,就算你外链很强大,一段时间不更新原创内容,百度一样不会收录你的文章。优化过度包括大量的关键词堆砌、垃圾外链、错误的HTML编码以及不合理的JS及FLASH。
解决办法:关键词堆砌是愚蠢的,还有新站无论如何不更新也不要直接复制粘贴。
蜘蛛有没有抓过
正常的一个页面只要蜘蛛来过一次,这个页面就可以被收录。如果这个页面蜘蛛爬都没有爬,一定是不会收录的。看蜘蛛有没有爬取过这个页面,可以在我们对我们的网站日志进行分析。
解决办法:给没有被蜘蛛抓取过的页面导蜘蛛。