简述数据采集的技术方法
大数据采集的技术方法主要包括系统日志采集方法,对非结构化数据的采集和其他数据采集方法 系统日志采集方法:很多互联网企业都有自己的海量数据采集工具,多用于系统日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等 对非结构化数据的采集:非结构化数据的采集就是针对所有非结构化的数据的采集,包括企业内部数据的采集和网络数据采集等。企业内部数据的采集是对企业内部各种文档,视频,音频,邮件,图片等数据格式之间互不兼容的数据采集。网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取互联网中相关网页内容的过程,并从中抽取出用户所需要的属性内容。 其他数据采集方法:对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。