博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
大数据整体技术流程及架构
阅读量:5771 次
发布时间:2019-06-18

本文共 857 字,大约阅读时间需要 2 分钟。

1. 数据处理流程

网站流量日志数据分析是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行。有以下几个大的步骤:
Ø 数据采集
数据采集概念,目前行业会有两种解释:一是数据从无到有的过程(web服务器打印的日志、自定义采集的日志等)叫做数据采集;另一方面也有把通过使用Flume等工具把数据采集到指定位置的这个过程叫做数据采集。
关于具体含义要结合语境具体分析,明白语境中具体含义即可。
Ø 数据预处理
通过mapreduce程序对采集到的原始日志数据进行预处理,比如清洗,格式整理,滤除脏数据等,并且梳理成点击流模型数据。
Ø 数据入库
将预处理之后的数据导入到HIVE仓库中相应的库和表中。
Ø 数据分析
项目的核心内容,即根据需求开发ETL分析语句,得出各种统计结果。
Ø 数据展现
将分析所得数据进行数据可视化,一般通过图表进行展示。

2.系统的架构

大数据整体技术流程及架构
相对于传统的BI数据处理,流程几乎差不多,但是因为是处理大数据,所以流程中各环节所使用的技术则跟传统BI完全不同:
数据采集:定制开发采集程序,或使用开源框架Flume
数据预处理:定制开发mapreduce程序运行于hadoop集群
数据仓库技术:基于hadoop之上的Hive
数据导出:基于hadoop的sqoop数据导入导出工具
数据可视化:定制开发web程序(echarts)
整个过程的流程调度:hadoop生态圈中的azkaban工具
大数据整体技术流程及架构
其中,需要强调的是:
系统的数据分析不是一次性的,而是按照一定的时间频率反复计算,因而整个处理链条中的各个环节需要按照一定的先后依赖关系紧密衔接,即涉及到大量任务单元的管理调度,所以,项目中需要添加一个任务调度模块。
3. 数据展现
数据展现的目的是将分析所得的数据进行可视化,以便运营决策人员能更方便地获取数据,更快更简单地理解数据。
市面上有许多开源的数据可视化软件、工具。比如Echarts.
大数据整体技术流程及架构

转载于:https://blog.51cto.com/13587708/2284702

你可能感兴趣的文章
串口硬流控原理验证RTS与CTS
查看>>
一个可以录音录视频、视频预览播放、并删除视频音频的小demo~标题好长
查看>>
LeetCode OJ:Convert Sorted List to Binary Search Tree(将排序好的链表转换成二叉搜索树)...
查看>>
云栖小镇—阿里特色的云计算生态系统
查看>>
java 发送POST,DELETE,PATCH,GET请求
查看>>
oracle 11g rac 监听无法启动
查看>>
ArcGisJS实现地图常用工具条、距离测量和面积测量(非官方实例)
查看>>
IIS6.0下thinkphp配置url伪静态
查看>>
M1/M2总结
查看>>
nginx默认访问目录时显示403错误
查看>>
关于设置 存储 内部存储空间只显示图片不显示视频的解决方法
查看>>
js函数收藏:获取cookie值
查看>>
udev文件系统的使用和基本工作原理分析
查看>>
html基础4-表单/下拉列表/传输方式
查看>>
win8学习--------File
查看>>
Qt编写可拖动对象+背景地图+多种样式+多种状态(开源)
查看>>
Advanced WordCount
查看>>
多元统计分析-判别分析
查看>>
数据库相同成绩排名例子
查看>>
[BZOJ 2186] [SDOI 2008] 沙拉公主的困惑
查看>>