发新话题
打印

侵略者(WEB数据采集系统)

侵略者(WEB数据采集系统)

http://www.invader.com.cn

功能介绍
    本系统能够实时的根据用户的配置,把用户指定的网站内容抓取到本地的数据库中。是一个专业的WEB数据采集系统。

特点
    后台服务进程负责采集。本系统不同于基于WEB方式的采集,是后台服务进程负责采集,采集参数的配置是依靠WEB的方式。
    自动采集。采集工程配置完毕后,后台服务进程会自动源源不断的检测源网站的更新,有新的数据就会及时采集下来。
    采集结果输出灵活。可以通过HTTP协议的接口提交方式,把采集结果提交的远程服务器,远程服务器可以运行不同的HTTP接口来对采集结果做不同的处理。

系统结构
    本系统是由两部分组成:采集工程配置,和后台采集进程。
    采集工程配置是采用WEB方式的用户操作界面,用户通过帐号密码登录到配置界面,对要采集的网站,以及要采集的数据块进行配置,最后保存为一个采集工程。
    后台采集进程负责对用户配置的采集工程进行分析,按照工程中的配置进行数据采集,以及采集到的数据进行相应处理。

采集结果处理
    采集结果处理有两种方式,一种是保存在本地的数据库,然后可以编写另一个程序导入到实际使用的数据库中,比如网站的发布平台,或者数据分析平台中。
    另一种方式是HTTP协议的接口提交方式。类似于POST方式的表单提交,在配置采集工程是制定一个URL地址,系统会把采集到的结果提交到这个URL,具体这个接口的参数编写规范,可以参考采集结果提交接口参数规范

TOP

发新话题