Product Center
神通T-Bees信息采集系统
神通T-Bees提供定向网站爬取、搜索引擎数据爬取等各类网页数据爬取;支持任务调度、关键字过滤、网页模板解析等。系统中共五个功能模块,分别是流程定义管理、流程实例管理、站点管理、分类管理、全局设置。
秉承如下设计思想——“先采集下来,再定制模板进行解析,或者进行内容导出”。系统以两条流程为主线串联系统功能,一个是“网页内容采集流程”,该流程的主要目的是完成从互联网上采集用户指定的站点的所有网页的内容,一个是“网页内容模板解析流程”,该流程的主要目的是对“网页内容采集流程”执行完毕之后,对采集的到网页文件,按照业务需求定制内容解析模板,进行内容解析,完成“非结构化”到“结构化”的转换。用神通T-Bees采用流程化的思想设计,故使用时基本遵循如下顶层流程: