2017大数据平台架构-大数据平台架构每块的功能介绍

文章阐述了关于2017大数据平台架构，以及大数据平台架构每块的功能介绍的信息，欢迎批评指正。

简略信息一览：

1、Hadoop最底层是一个HDFS（Hadoop Distributed File System，分布式文件系统），存储在HDFS中的文件先被分成块，然后再将这些块***到多个主机中（DataNode，数据节点）。

2、在海量数据下，数据冗余模块往往成为整个系统的瓶颈，建议使用一些比较快的内存NoSQL来冗余原始数据，并***用尽可能多的节点进行并行冗余；或者也完全可以在Hadoop中执行批量Map，进行数据格式的转化。

（图片来源网络，侵删）

3、Hadoop分布式文件系统（HDFS）将数据文件切割成数据块，并将其存储在多个节点之内，以提供容错性和高性能。除了大量的多个节点的聚合I/O，性能通常取决于数据块的大小——如128MB。

4、要建立一个大数据系统，我们需要从数据流的源头跟踪到最后有价值的输出，并在现有的Hadoop和大数据生态圈内根据实际需求挑选并整合各部分合适的组件来构建一个能够支撑多种查询和分析功能的系统平台。

5、分布式存储传统化集中式存储存在已有一段时间。但大数据并非真的适合集中式存储架构。Hadoop设计用于将计算更接近数据节点，同时***用了HDFS文件系统的大规模横向扩展功能。

（图片来源网络，侵删）

Hadoop：Hadoop是一个分布式计算框架，主要包括两个核心组件：分布式文件系统HDFS和MapReduce。HDFS为海量数据提供了存储，MapReduce为海量数据提供了计算。

五种大数据处理架构大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。

Storm Storm是Twitter主推的分布式计算系统。它在Hadoop的基础上提供了实时运算的特性，可以实时的处理大数据流。

批处理批处理是大数据处理傍边的遍及需求，批处理主要操作大容量静态数据集，并在核算进程完成后返回成果。鉴于这样的处理模式，批处理有个明显的缺点，便是面对大规模的数据，在核算处理的功率上，不尽如人意。

虽然Kappa架构看起来简洁，但实施难度相对较高，尤其是对于数据重播部分。适用场景：和Lambda类似，改架构是针对Lambda的优化。

数据存储：公司需要存储将通过大数据架构处理的数据。一般而言，数据将存储在数据湖中，这是一个可以轻松扩展的大型非结构化数据库。

主流的大数据分析平台构架：Hadoop Hadoop***用MapReduce分布式计算框架，根据GFS开发了HDFS分布式文件系统，根据BigTable开发了HBase数据存储系统。Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。

数据存储：指的便是数据仓库的建设了，简略来说能够分为事务数据层（DW）、指标层、维度层、汇总层（DWA）。数据同享层：表明在数据仓库与事务体系间提供数据同享服务。

大数据计算框架有：批处理计算框架、流式计算框架、图计算框架、分布式数据库计算框架、深度学习计算框架。批处理计算框架适用于对大规模的离线数据进行处理和分析。

关于2017大数据平台架构，以及大数据平台架构每块的功能介绍的相关信息分享结束，感谢你的耐心阅读，希望对你有所帮助。