1. 首页 > 快手教程

大数据怎么采集-大数据如何采集

大数据怎么采集

主要有以下几种方式:一、线上交互数据采集。通过容易传播的在线活动或者类公益互动等形式,在与用户产生交互的过程中实现数据的采集,这种方式的数据采集成本比较低,速度比较快,范围比较广二、浏览器页面采集。主要是收集网页页面的浏览日志(PV/UV等)和交互日志数据。三、客户端日志采集。是指通过自有的APP客户端进行数据采集,在项目开发过程中写入数据统计的代码,用于APP客户端的数据采集。四、数据库同步数据采集。是指直接将数据库进行交互同步,进而实现数据采集,这种方式的优势是数据来源大而全,根据同步的方式 可以分为:直接数据源同步生成数据文件同步数据库日志同步

大数据如何采集

1、离线采集:工具:ETL;在数据仓库的语境下,ETL基本上就是数据采集的代表,包括数据的提取(Extract)、转换(Transform)和加载(Load)。在转换的过程中,需要针对具体的业务场景对数据进行治理,例如进行非法数据监测与过滤、格式转换与数据规范化、数据替换、保证数据完整性等。2、实时采集:工具:Flume/Kafka;实时采集主要用在考虑流处理的业务场景,比如,用于记录数据源的执行的各种操作活动,比如网络监控的流量管理、金融应用的股票记账和web服务器记录的用户访问行为。在流处理场景,数据采集会成为Kafka的消费者,就像一个水坝一般将上游源源不断的数据拦截住,然后根据业务场景做对应的处理(例如去重、去噪、中间计算等),之后再写入到对应的数据存储中。这个过程类似传统的ETL,但它是流式的处理方式,而非定时的批处理Job,些工具均采用分布式架构,能满足每秒数百MB的日志数据采集和传输需求3、互联网采集:工具:Crawler,DPI等;Scribe是Facebook开发的数据(日志)收集系统。又被称为网页蜘蛛,网络机器人,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它支持图片、音频、视频等文件或附件的采集。

大数据怎么采集-大数据如何采集

留言与评论(共有 0 条评论)
   
验证码: