火车采集器3.0版本基本功能介绍
----由于时间原因,测试版中入库和文件下载尚未完善
1、使用站点+任务方式管理采集节点。通常,一个站点大都有多个分类,如果各个分类只采用一套模版或者模版标记变化不大的情况下我们只要一个任务即可完成整个网站的采集,但是如果每个分类使用一个模版且模版的标记变化比较大,这时候我们就需要对各个分类设置一个对应的采集规则(也称任务)。因此,使用站点加任务的管理方式有利于日后维护——特别是采集站点比较多的时候;
2、实现采集地址和及内容采集同时进行。按传统的采集方式是先把地址读取到本地,然后在对各个地址一个个的分析,这样的效率明显很低。火车采集器3.0采用同步进行方式,也就是在获取完第一条地址之后再接着获取其他采集地址的时候同时采集内容而且可以同时多任务采集!
3、对来源采集站进行登陆采集,编码,JS转换选择,保守计算可以实现对95%以上目标进行采集。 一些比较大的或者国际性的软件大都采用utf8或者unicode编码来... |