火车头采集器 v9.5 实用下载
- 软件介绍
- 软件截图
- 相关阅读
- 网友评论
- 下载地址
光行资源网提供火车采集器v9安卓版是一款专业能力很强的数据收集软件,客户能够应用这款软件对网页页面中的数据信息开展收集,收集进行后能够立即储存或是公布。火车采集器精简版内嵌自动式作用,不用人力值班实际操作,每日任务收集进行后回开展自动开关机,在空余时还能实时监控系统,保证网络信息安全,十分便捷。
火车采集器免费完整版有着在线文档编辑作用,并且适用大批量编写与解决,大大的节约了你开启的?r间,提升了工作效能。
火车采集器功能介绍
1、网址采集
火车采集器可以通过网址采集规则的设定,快速采集到所需的网址信息。可手动输入、批量添加或直接从文本导入网址,并能自动筛选去除重复的网址信息。
支持多级页面网址的采集,多级网址采集可以使用页面分析自动得到地址、手动填写规则两种方式。应对多级分页中内容不同,但地址相同的页面网址采集,火车采集器设置了 GET,POST 和 ASPXPOST 三种 HTTP 请求方式。
火车采集器支持网址采集测试,可以验证操作的正确性,避免操作有误导致采集结果不准确
2、内容采集
火车采集器可以通过分析网页源代码,设定内容采集规则,精准采集到网页中散乱分布的内容数据,并支持多级多页等复杂页面中的内容采集。
通过定义标签,能够将数据进行分类采集,比如将文章内容的标题与正文分开采集。火车采集器配置了三种内容提取的方式:前后截取、正则提取、正文提取。可选性强,用户可以按照使用需求进行选择。
内容采集同样支持测试功能,可选用一个典型页面来测试内容采集的正确性,以便及时更正和进行下一步数据处理。
3、数据处理
对于采集到的信息数据,火车采集器可以对其进行一系列的智能处理,使采集到的数据更加符合我们的使用标准。主要包括:
1)标签过滤:过滤掉内容中不需要的空格,链接等标签;2)替换:支持近义、同义词替换;
3)数据转换:支持汉译英、简转繁、转换为拼音等;
4)自动摘要、自动分词:支持自动生成摘要和自动分词功能;
5)下载选项:火车采集器支持任意格式的文件探测下载,并能够将相对地址智能补全为绝对地址。
4、数据发布
火车采集器将数据采集下来后默认将数据保存在本地数据库(sqlite、mysql、sqlserver),用户可以根据自己的需求选择对数据的后续操作以完成数据发布,支持直接查看数据、在线发布数据和入数据库,并支持用户进行发布接口的使用和开发。
根据数据库类型用相关软件打开可以直接查看数据,配置一个发布模块即可将数据在线发布到网站,可以设置自动登陆网站,获取栏目列表等;如果入到用户自己的数据库中,用户只需写几个 SQL 语句,程序就会按照用户的 SQL 语句导入数据;保存为本地文件时支持本地 SQL 或文本文件(word、excel、html,txt)格式。
5、多任务多线程运行
火车采集器可以选择同时运行多个任务,支持不同网站或同一站点下不同栏目的内容同时采集,能够有计划的调度任务。单个任务在采集内容和发布内容时均可以使用多线程运行,提升运行效率。
6、HTTP 二级代理服务器
火车采集器可以通过二级代理服务器的功能实现 IP 的更换,避免因 IP 被限制访问而导致的采集无法运行,用户需先获取一些代理 IP,然后将代理 IP 导入采集器中完成设置即可。
7、计划任务管理器
火车采集器支持计划任务管理,能够定时自动地进行采集发布,实现自动更新的功能,可对加入计划任务内的任务设置其执行的频率和开始运行的时间,执行频率可以选择每周、每天、每间隔,或根据用户需求自定义 corn 表达式执行。
8、任务运行日志管理
火车采集器配置了采集监控系统,任务运行管理器将采集监控模块生成的记录信息组装成日志条目,如果启用了自动运行功能或需要对程序运行状况进行监控,可以查看任务运行日志中某个日期时间段内的运行情况,来做具体的分析。
可以具体了解到任务的成功数量、失败数量,重复数量和用时等数据。
9、插件扩展
火车采集器支持 PHP 和 C#插件扩展,可以帮助用户对采集的数据进行修改处理,完成用户的更多需求,极大的扩展了采集器的功能。用户可以按照插件开发手册自行开发所需插件,也可以使用火车采集器官方开发的一些插件资源。
火车采集器中配置了插件管理器,可对插件列表进行管理和选择插件方法,支持插件测试。
火车采集器使用教程
下载安装火车头采集器,有付费与免费版
安装后,双击打开,进入程序主页面,新建分组。
选中刚才新建的分组,然后右键创建任务。
编辑任务名称,然后添加要采集的目标页面链接。
选择批量/多页采集
网址采集的规则设置:
注意:采集的量根据自己的需求来改
添加采集规则
进入采集的目标页面,点右键查看源代码。找到要采集的文章的标题,然后往上找div,逐个查找,找到页面中唯一的一个div,然后复制下来。
同理再找到最后一个div。
这样做目的是缩小采集目标的范围。
然后以第一个div开始,最后一个div结尾。
把代码复制到对应的选定区,然后可以保存,先测试一次
测试成功。那么采集的大致范围选定了,下面来修改采集规则,让采集的内容达到我们想要的内容。
先找到内容页链接的规律,然后去掉不想要的其他代码。
然后来进行采集的第二部:内容规则的设置
设置标题替换
标题替换设置好后,测试效果
设置内容部分的替换
去页面的后台代码,找到文章内容上面唯一的一个div,和文字结尾后面唯一的一个div,然后复制代码放到对程序对应的设置框里。
再设置html代码的过滤,留下需要的,去掉不需要的。然后点击确定,保存,去测试一下。
以上测试成功后,进行最后一步发布的设置。
在web发布配置管理,里面进行配置
主要是配置网站后台的登陆信息和要发布的栏目,然后保存配置 ,全部保存,就OK了,可以正式批量采集文章了。
火车采集器收费与免费的区别
1、免费版的和商业版本的论坛采集器有什么区别?
答:论坛采集器目前有三个版本,免费版,网络授权版,加密狗版。免费版的有功能上的限制,只能在测试的时候进行下载到图片和附件,真正采集发布的时候图片,附件等无法下载。
免费版本和收费版本的主要区别是,免费版本不支持文件下载,不支持自动运行。不支持插件,回复只能采一页,其它功能和收费版是一样的。
2、论坛采集器的详细特性?
答:论坛数据采集专家的特性
1.完美支持楼层类数据的采集.例如论坛,帖吧,知道,点评等网站类型的抓取.
2.支持附件和图片的原名下载和上传,支持上传后保持原有的图文混排格式.
3.独有的普通采集,续采,更新采集三种模式.续采功能可以对旧版中的新回复进行采集,更新采集对已经采集过的数据进行重新采集,有更新再发布.
4.支持标签的随意添加,添加的标签将被采集器保存并发布到网站上去.
5.内容页支持循环采集和不循环采集,不循环采集的内容将被添加到循环采集的结果中去.比如知道中有问答,回复和最佳答案,可以通过此功能获取最佳答案.
6.支持时间标签的模糊识别,只要是有时间二字的标签,其中的时间将被提取出来作为结果,解决了部分时间难以提取的问题.
7.可选的采集帖子类型.用户可以自定义帖子类别,实现有选择的采集.
8.通过插件模块,用户可以针对需求编写程序,实现更多的功能.
9.无人值守,自动运行功能。
一个针对论坛,一个通用区别
火车头采集器规则默认地址修改
1、打开火车头 新建分组规则
拿到规则之后,打开火车头,如果用的火车头开心版的,不要输入账户名和密码,直接点击登录即可,如果是免费版的需要输入账号和密码登录,火车头官方注册即可。
登录上之后,然后打开火车头,即上图所示,新建一个分组规则,名字自己命名。
2、导入任务
点击分组规则,右键--导入任务,选择淘小白发给大家的火车头采集规则,打开即可。
3、编辑规则
点击导入的规则,右键编辑,即可打开编辑界面
4、修改起始地址规则
起始地址,这里双击即可打开,然后编辑搜词的关键词,还有列表页的页数,自己修改,根据需要自行修改,修改完点击确定即可。
5、修改规则采集标签
有些规则我也是在用的,所以,有的采集标签需要我们自己检查一下,把内容字数限制什么的,还有一些数据处理,自己都检查一下,需要修改的,自己修改下,不需要修改,就保持原样即可。
6、发布修改
内容发布修改的地方,可以修改保存的格式,这里是保存为本地的修改方法,如果是在线发布,请根据自己的发布模块进行配置。
7、其他设置
其他设置这个地方,先检查发布间隔,如果很长,自己修改下,还有其他的一些发布内容,不懂的后面自己研究一下。
这样基本就修改完了,修改完成之后,然后点击保存退出即可。
8、正式采集前清空数据
点击任务规则,右键清空采集数据,然后正式开始采集。
9、正式采集请勾选这些
正式采集的时候,请勾选这3个,也可以先采集网址和内容,最后的时候,只发布数据。
常见问题
火车采集器怎么安装
1、打开hccjq.exe软件
2、开始火车采集器安装向导,下一步
3、接受安装协议,我同意
4、安装软件位置放置d磁盘,(修改磁盘选项,点击浏览按钮,并点击安装按钮<
img src="/uppic/170804/201708041352056602.jpg" alt="" />
5、加载软件程序,完成安装,退出程序
火车采集器怎么采集数据
打开软件并注册
新建分组,新建任务
打开界面,按顺序填入您想采集的网址以及采集的选择范围,范围从网页的源代码里选取不重复的代码段,不然会报错。这个网址可以是直接是要采集的内容页也可以是分页,本例以最简单的直接采集页面为例,那么选择级别为;0”
编辑内容采集的规则,也是要求能识别的标志性代码段,能够唯一识别或最早识别所需采集内容的。这样出来结果是一条数据。
如果采集网址内容有规律的重复,且为我们需要的数据,可以点击;循环匹配”这样能采集下来所有相同代码段的内容。这样出来结果是格式相同的n条数据。
选择发布的格式,好多收费的,txt不收费,自己看的话可以选此,有其他需要请自行选择,另外模板标签需要自己编辑。
图例为采集结果,直观显示,如果问题亦会在此报错。
选择任务,右键单击;开始”即可。
火车采集器怎么采集优酷电影规则
可以用小猪浏览器,兼容市面上所有的论坛博客网站模式,且自动识别其版本。最重要的是集的时候不需要使用规则,直接选中你想转发的内容即可转发到你指定的网站上。还有更多的功能。另外还有视频教程,看一遍就会了。非常的简单。
火车采集器怎么去掉时间
纯正则替换是可以的,因为这是固定的4位数字,可以使用 \.net/\d{4}/(\d\d)(\d\d)/ ,然后反向引用$1和$2即可。
火车采集器怎么用
1、采集网址规则,点击添加
2、选择【批量/多页】,添加有规则的网址,输入首项和页数。点击【添加】完成
3、采集内容规则
双击【标题】,弹出标题编辑框
4、提取方式一般为【前后截取】,通过观察源代码,填写开始字符串和结束字符串
5、添加【html标签排除】【内容添加前后缀】,点击确定就可。
6、发布内容设置。启用方式二来保存采集结果。
文件名格式可以根据自己喜好,任意选择。
文件模板选择,火车头给出的几个默认模板。一般默认为txt,csv,html,excel格式。可以根据自己的喜好来选择模板。
7、设定好之后,保存即可。这时,采集规则已经设定完毕。执行即可得所需要的结果。
更新日志
火车头采集器v9.5更新
1、调整列表页排重的方式,现在仅会在同级列表页之间进行排重。
2、增加对于任务运行完毕之后的运行统计的预警功能(Email邮件预警)【旗舰版功能】 。
3、新增支持对于一些请求返回码不为200时,仍然进行采集的配置。
4、新增支持将下载地址保存为html文件的功能。
5、二次代理服务,增加导入的时候配置代理类型,同时修复对于用户名密码的显示错误问题。
6、发布配置页面,默认仅显示当前选择配置,加快任务加载时间。
7、修复命令行控制,closeapp参数无法自动关闭程序的问题。
8、修复在未选择图片水印时,无法进行图片剪裁的问题。
9、优化开始界面加载方式,解决初始化界面卡顿的问题。
10、修复在配置多行连接符包含;|”导致的无法探测图片下载的问题。
11、修复Excel导出数据时,列的顺序与字段顺序不一致的问题。
12、修复Excel导出数据时,一些包含数字的字段的导出数据错误问题。
13、修复任务批量编辑时,Json采集表达式未能复制的问题。
火车采集器特色
1、任意格式文件下载
照片、压缩包、视?l等任意文件格式的文档都能轻轻松松下载。
2、多识别系统
配置文章正文识别、分词算法识别、任意编号识别等多种多样识别系统,智能化识别实际操作更轻轻松松。
3、可选认证方法
可挑选是不是应用加密狗,随时随地确保网络信息安全。
4、自动式运作
不用人力值班实际操作,任务完成后自动开关机。
5、替换作用
同义词,同义词替换、主要参数替换,原创文章必不可少专业技能。
6、分布式系统快速采集
分配任务至好几个手机客户端,与此同时运作采集,高效率增长。
7、采集视频监控系统
实时监控系统采集,保证数据信息的精确性。
8、适用拓展
适用插口和软件拓展,达到各种各样采发要求。
9、无限级多页采集
支持包含ajax请求数据在内的多个页面信息的无限级采集。
10、支持多数据库
支持Access/MySQL/MsSQL/Sqlite/Oracle多种类型的数据库保存及发布。
软件亮点
火车采集器v9是一款专业性极强的数据采集软件!用户可以使用这款软件对网页中的数据信息进行采集,采集完成后可以直接保存或者发布。火车采集器绿色版内置全自动功能,无需人工值守操作,任务采集完成后回进行自动关机,在空闲时还能实时监控,确保数据安全,十分方便。分布式高速采集,多识别系统
- 下载地址(pc版)
- 网盘下载
人气下载推荐
-
SolidWorks2022百度网盘下载 破解版下载
下载
-
用友U8V10.1免费下载 免狗破解下载
下载
-
恒智天成资料软件 v9.0 加密狗破解版下载
下载
-
WinCC7.4SP1下载 授权硬狗破解软件下载
下载
-
Multisim14元件库下载 32/64位 中文破解版电脑版下载
下载
-
云熙拆单软件正式版 V6.16 破解版
下载
-
TraceParts 3D零件库下载 v2021 完美破解版下载
下载
-
通达信通赢版全功能河蟹版下载 v7.47 暴力L2破解版正式版下载
下载
-
ANSYS19.0中文破解版下载(附破解文件) 百度网盘资源下载
下载
-
美亚柏科取证大师下载 v2021 专业破解版下载
下载
-
ANSYS2021 r2吾爱破解版 32/64位
下载
-
SPSS27中文破解版下载 v27.0 永久授权版下载
下载