网站小爬虫是一个小巧的html及Sitemap.xml网站地图生成工具,运行网站小爬虫后,您只需要输入域名,系统就可以对网站进行爬行,最后生成完整的网站地图即可。在网站中加入html及sitemap地图有利于搜索引擎蜘蛛的抓取和收录。
界面预览图:
《网站小爬虫》是一个免费的网站地图自动生成软件,它可以为您生成html及Sitemap.xml格式的网站地图,符合yahoo,google等大型搜索引擎的标准,完全模拟网络爬行程序抓取网页,能自动过滤不正确的链接,生成速度极快。
什么是网站地图?
网站地图-第一步表现形式是一个网页文件,一般是一个html格式的文件,上网人员可以打开阅读它,可以更方便地了解一个网站的内容、布局、架构,给网站浏览者提供了一个很好的方式去快速查找他想找的内容。
网站地图文件的链接一般放在网站的显眼处,以便于网站浏览者更方便地看到并浏览。
网站地图同时也为搜索引擎提供了一个良好的入口去快速遍历网站的所有页面。
html网站地图及Sitemap.xml网站地图:
1、HTML网站地图,称为HTML版本的网站地图,英文是sitemap,特质HTML版网站地图,这个版本的网站地图就是您可以在网站看到的,列出网站上所有主要页面的链接的页面。对小网站来讲,甚至可以列出整个网站的所有页面,对于具有规模的网站来讲,一个网站地图不可能罗列所有的页面链接,可以采取两种办法,一种办法是网站地图只列出网站最主要的链接,如一级分类,二级分类,第二种办法是把网站地图分成几个文件,主网站地图列出通往次级网站的链接,次级网站地图在列出一部分页面链 接。
2、XML网站地图(Sitemap.xml),XML版本的网站地图是Google第一步提出的,怎么区分了,上面所说的HTML版本的s是小写的,而XML版本的S就是大写的,XML版本的网站地图是XML标签组成的,文件本身必须是utf8编码,网站地图文件实际上就是列出网站需要被收录的页面的URL,最简单的网站地图可以是一个纯文本件,文件只要列出页面的URL,一行列一个URL,搜索引擎就能抓取并理解文件内容。
sitemap.xml的创建是为了更有利于搜索引擎的的抓取策略,从而提升工作效率。
使用网站地图的优点:
1、为搜索引擎蜘蛛提供可以浏览整个网站的链接简单的体现出网站的整体框架出来给搜索引擎看。
2、为搜索引擎蜘蛛提供一些链接,指向动态页面或者应用其他方法比较难以到达的页面。
3、作为一种潜在的着陆页面,可以为搜索流量进行优化。
4、如果访问者试图访问网站所在域内并不存在的URL,那么这个时候这个时候这个访问者就会被转到无法找到文件的错误页面,而网站地图可以作为该页面的准内容。
网站小爬虫使用方法:
运行网站小爬虫,在根网址里填写上域名,而后在文件目录位置选择保存的位置,设置更新频率与权重,设置文件过滤,最后点击扫描,扫描后导出就OK了。