- 软件介绍
- 软件截图
Screaming Frog SEO Spider工具是国外开发的著名链接检测工具,可以应用在Windows、MAC、Ubuntu等系统。可以快速分析一个网站的链接、图片、CSS、Script等元素。可以免费下载安装,免费版可以分析500个链接。
功能介绍
Spider的抓取方式可以分为Spider与URL,简单点理解就是一个你可以放一个页面或域名开始抓取,另外一个则是放一个url文件进去抓取。 你在输入好url或选择好url文件后则会开始抓取内容,那么问题来了,Spider可以为我们抓取页面的什么内容呢? 页面链接 文件类型与编码 HTTP状态码和状态 Title与长度 Description与长度 Keywords与长度 H1标签文本与长度 H2标签文本与长度 Canonical URL 其他(文件大小,字数,层数,内链数量,站外链接数量等) 对于链接抓取的限制上,Spider也做了许多功能。首先是下面的特殊限制:
检查图片 检查css文件 检查js文件 检查swf文件,也就是Flash之类的 检查外部链接 检查目录以外的链接 跟踪标识Nofollow的站内链接 跟踪表示Nofollow的外部链接 忽略robots.txt 总共抓取数量 总共抓取层数 这里大家可能还是看不太懂,那Adrian为大家简单举例解释一下。 案例一:D姐想要抓UC所有页面,其中不包括CSS,JS,SWF(因为这些浪费时间和资源)。那么就可以取消勾选四个选项了; 案例二:民工想要像蜘蛛一样爬取UC的页面,那么就可以只勾选Ignore robots.txt这一项了; 案例三:何元想要只抓dx的首页所有链接,全部勾选上,除了不要勾Ignore与Limit search toal就可以了,当然记得勾上Limit Search Depth 并设置层级为1; 如果还看不懂,那我也无能为力了,只能是找D姐给你好好培训一下SEO了。 其实Spider的功能有许多,我就不一一提及了。说几个我常用的功能吧! 第一个,正则爬行页面。 在configuration中的include和exclude里都有可以写正则的地方,在那里你可以设置你想要特定抓取爬行的链接。至于怎么使坏,需要你自己想象了。 第二个,速度限制。 在configuration中的Speed中有关于速度的限制,这里需要提一下的是速度上的限制不仅仅指的是线程,还有限制抓取URL速度,例如你想要1 URL/S,又或者是2 URL/S。这个功能可以躲避部分有防重复爬行限制的网站。 第三个,User Agent设置。 在configuration中有一个User Agent里可以设置你的身份,你可以设置为某搜索引擎的蜘蛛或浏览器都可以。 第四个,自定义字段检查功能。 同样是在configuration中的custom,这个功能可以说是比较好用的功能,主要是可以让Spider在爬行抓取的同时可以根据你所设置的自定义字段进行筛选。例如:我在Custom设置了包含DVD这个字眼,那么所有出现DVD字眼的页面都会特别筛选出来。 还有其他的功能,如:代理抓取,制作sitemap,导出url等功能,都是比较实用的。
链接检测工具功能介绍
Spider的抓取方式可以分为Spider与URL,简单点理解就是一个你可以放一个页面或域名开始抓取,另外一个则是放一个url文件进去抓取。 你在输入好url或选择好url文件后则会开始抓取内容,那么问题来了,Spider可以为我们抓取页面的什么内容呢? 页面链接 文件类型与编码 HTTP状态码和状态 Title与长度 Description与长度 Keywords与长度 H1标签文本与长度 H2标签文本与长度 Canonical URL 其他(文件大小,字数,层数,内链数量,站外链接数量等) 对于链接抓取的限制上,Spider也做了许多功能。首先是下面的特殊限制:
检查图片 检查css文件 检查js文件 检查swf文件,也就是Flash之类的 检查外部链接 检查目录以外的链接 跟踪标识Nofollow的站内链接 跟踪表示Nofollow的外部链接 忽略robots.txt 总共抓取数量 总共抓取层数 这里大家可能还是看不太懂,那Adrian为大家简单举例解释一下。 案例一:D姐想要抓UC所有页面,其中不包括CSS,JS,SWF(因为这些浪费时间和资源)。那么就可以取消勾选四个选项了; 案例二:民工想要像蜘蛛一样爬取UC的页面,那么就可以只勾选Ignore robots.txt这一项了; 案例三:何元想要只抓dx的首页所有链接,全部勾选上,除了不要勾Ignore与Limit search toal就可以了,当然记得勾上Limit Search Depth 并设置层级为1; 如果还看不懂,那我也无能为力了,只能是找D姐给你好好培训一下SEO了。 其实Spider的功能有许多,我就不一一提及了。说几个我常用的功能吧! 第一个,正则爬行页面。 在configuration中的include和exclude里都有可以写正则的地方,在那里你可以设置你想要特定抓取爬行的链接。至于怎么使坏,需要你自己想象了。 第二个,速度限制。 在configuration中的Speed中有关于速度的限制,这里需要提一下的是速度上的限制不仅仅指的是线程,还有限制抓取URL速度,例如你想要1 URL/S,又或者是2 URL/S。这个功能可以躲避部分有防重复爬行限制的网站。 第三个,User Agent设置。 在configuration中有一个User Agent里可以设置你的身份,你可以设置为某搜索引擎的蜘蛛或浏览器都可以。 第四个,自定义字段检查功能。 同样是在configuration中的custom,这个功能可以说是比较好用的功能,主要是可以让Spider在爬行抓取的同时可以根据你所设置的自定义字段进行筛选。例如:我在Custom设置了包含DVD这个字眼,那么所有出现DVD字眼的页面都会特别筛选出来。 还有其他的功能,如:代理抓取,制作sitemap,导出url等功能,都是比较实用的。