常用的几种大数据架构剖析

4顶
0踩

2018-04-12 10:37 by 副主编 jihong10102006 评论(0) 有74837人浏览

大数据架构

数据分析工作虽然隐藏在业务系统背后，但是具有非常重要的作用，数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展，数据挖掘、数据探索等专有名词曝光度越来越高，但是在类似于Hadoop系列的大数据分析系统大行其道之前，数据分析工作已经经历了长足的发展，尤其是以BI系统为主的数据分析，已经有了非常成熟和稳定的技术方案和生态系统，对于BI系统来说，大概的架构图如下：

可以看到在BI系统里面，核心的模块是Cube，Cube是一个更高层的业务模型抽象，在Cube之上可以进行多种操作，例如上钻、下钻、切片等操作。大部分BI系统都基于关系型数据库，关系型数据库使用SQL语句进行操作，但是SQL在多维操作和分析的表示能力上相对较弱，所以Cube有自己独有的查询语言MDX，MDX表达式具有更强的多维表现能力，所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山，大多数的数据库服务厂商直接提供了BI套装软件服务，轻易便可搭建出一套Olap分析系统。不过BI的问题也随着时间的推移逐渐显露出来：

BI系统更多的以分析业务数据产生的密度高、价值高的结构化数据为主，对于非结构化和半结构化数据的处理非常乏力，例如图片，文本，音频的存储，分析。
由于数据仓库为结构化存储，在数据从其他系统进入数据仓库这个东西，我们通常叫做ETL过程，ETL动作和业务进行了强绑定，通常需要一个专门的ETL团队去和业务做衔接，决定如何进行数据的清洗和转换。
随着异构数据源的增加，例如如果存在视频，文本，图片等数据源，要解析数据内容进入数据仓库，则需要非常复杂等ETL程序，从而导致ETL变得过于庞大和臃肿。
当数据量过大的时候，性能会成为瓶颈，在TB/PB级别的数据量上表现出明显的吃力。
数据库的范式等约束规则，着力于解决数据冗余的问题，是为了保障数据的一致性，但是对于数据仓库来说，我们并不需要对数据做修改和一致性的保障，原则上来说数据仓库的原始数据都是只读的，所以这些约束反而会成为影响性能的因素。
ETL动作对数据的预先假设和处理，导致机器学习部分获取到的数据为假设后的数据，因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘，则在数据入库经过ETL的时候就需要明确定义需要提取的特征数据，否则无法结构化入库，然而大多数情况是需要基于异构数据才能提取出特征。

在一系列的问题下，以Hadoop体系为首的大数据分析平台逐渐表现出优异性，围绕Hadoop体系的生态圈也不断的变大，对于Hadoop系统来说，从根本上解决了传统数据仓库的瓶颈的问题，但是也带来一系列的问题：

从数据仓库升级到大数据架构，是不具备平滑演进的，基本等于推翻重做。
大数据下的分布式存储强调数据的只读性质，所以类似于Hive，HDFS这些存储方式都不支持update，HDFS的write操作也不支持并行，这些特性导致其具有一定的局限性。

基于大数据架构的数据分析平台侧重于从以下几个维度去解决传统数据仓库做数据分析面临的瓶颈：

分布式计算：分布式计算的思路是让多个节点并行计算，并且强调数据本地性，尽可能的减少数据的传输，例如Spark通过RDD的形式来表现数据的计算逻辑，可以在RDD上做一系列的优化，来减少数据的传输。
分布式存储：所谓的分布式存储，指的是将一个大文件拆成N份，每一份独立的放到一台机器上，这里就涉及到文件的副本，分片，以及管理等操作，分布式存储主要优化的动作都在这一块。
检索和存储的结合：在早期的大数据组件中，存储和计算相对比较单一，但是目前更多的方向是在存储上做更多的手脚，让查询和计算更加高效，对于计算来说高效不外乎就是查找数据快，读取数据快，所以目前的存储不单单的存储数据内容，同时会添加很多元信息，例如索引信息。像类似于parquet和carbondata都是这样的思想。

总的来说，目前围绕Hadoop体系的大数据架构大概有以下几种：

传统大数据架构

之所以叫传统大数据架构，是因为其定位是为了解决传统BI的问题，简单来说，数据分析的业务没有发生任何变化，但是因为数据量、性能等问题导致系统无法正常使用，需要进行升级改造，那么此类架构便是为了解决这个问题。可以看到，其依然保留了ETL的动作，将数据经过ETL动作进入数据存储。

优点：简单，易懂，对于BI系统来说，基本思想没有发生变化，变化的仅仅是技术选型，用大数据架构替换掉BI的组件。

缺点：对于大数据来说，没有BI下如此完备的Cube架构，虽然目前有kylin，但是kylin的局限性非常明显，远远没有BI下的Cube的灵活度和稳定度，因此对业务支撑的灵活度不够，所以对于存在大量报表，或者复杂的钻取的场景，需要太多的手工定制化，同时该架构依旧以批处理为主，缺乏实时的支撑。

适用场景：数据分析需求依旧以BI场景为主，但是因为数据量、性能等问题无法满足日常使用。

流式架构

在传统大数据架构的基础上，流式架构非常激进，直接拔掉了批处理，数据全程以流的形式处理，所以在数据接入端没有了ETL，转而替换为数据通道。经过流处理加工后的数据，以消息的形式直接推送给了消费者。虽然有一个存储部分，但是该存储更多的以窗口的形式进行存储，所以该存储并非发生在数据湖，而是在外围系统。

优点：没有臃肿的ETL过程，数据的实效性非常高。

缺点：对于流式架构来说，不存在批处理，因此对于数据的重播和历史统计无法很好的支撑。对于离线分析仅仅支撑窗口之内的分析。

适用场景：预警，监控，对数据有有效期要求的情况。

Lambda架构

Lambda架构算是大数据系统里面举足轻重的架构，大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支：实时流和离线。实时流依照流式架构，保障了其实时性，而离线则以批处理方式为主，保障了最终一致性。什么意思呢？流式通道处理为保障实效性更多的以增量计算为主辅助参考，而批处理层则对数据进行全量运算，保障其最终的一致性，因此Lambda最外层有一个实时层和离线层合并的动作，此动作是Lambda里非常重要的一个动作，大概的合并思路如下：

优点：既有实时又有离线，对于数据分析场景涵盖的非常到位。

缺点：离线层和实时流虽然面临的场景不相同，但是其内部处理的逻辑却是相同，因此有大量荣誉和重复的模块存在。

适用场景：同时存在实时和离线需求的情况。

Kappa架构

Kappa架构在Lambda 的基础上进行了优化，将实时和流部分进行了合并，将数据通道以消息队列进行替代。因此对于Kappa架构来说，依旧以流处理为主，但是数据却在数据湖层面进行了存储，当需要进行离线分析或者再次计算的时候，则将数据湖的数据再次经过消息队列重播一次则可。

优点：Kappa架构解决了Lambda架构里面的冗余部分，以数据可重播的超凡脱俗的思想进行了设计，整个架构非常简洁。

缺点：虽然Kappa架构看起来简洁，但是施难度相对较高，尤其是对于数据重播部分。

适用场景：和Lambda类似，改架构是针对Lambda的优化。

Unifield架构

以上的种种架构都围绕海量数据处理为主，Unifield架构则更激进，将机器学习和数据处理揉为一体，从核心上来说，Unifield依旧以Lambda为主，不过对其进行了改造，在流处理层新增了机器学习层。可以看到数据在经过数据通道进入数据湖后，新增了模型训练部分，并且将其在流式层进行使用。同时流式层不单使用模型，也包含着对模型的持续训练。

优点：Unifield架构提供了一套数据分析和机器学习结合的架构方案，非常好的解决了机器学习如何与数据平台进行结合的问题。

缺点：Unifield架构实施复杂度更高，对于机器学习架构来说，从软件包到硬件部署都和数据分析平台有着非常大的差别，因此在实施过程中的难度系数更高。

适用场景：有着大量数据需要分析，同时对机器学习方便又有着非常大的需求或者有规划。

总结

以上几种架构为目前数据处理领域使用比较多的几种架构，当然还有非常多其他架构，不过其思想都会或多或少的类似。数据领域和机器学习领域会持续发展，以上几种思想或许终究也会变得过时。

查看图片附件

来自: 白发川

分享到：

4
顶

0
踩

评论共 0 条请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

第十二期:常用的几种大数据架构剖析

常用的几种大数据架构剖析随着大数据技术的发展，数据挖掘、数据探索等专有名词曝光度越来越高，但是在类似于Hadoop系列的大数据分析系统大行其道之前，数据分析工作已经经历了长足的发展，尤其是以BI系统为主的...

五种大数据架构简介

虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限，但这种计算类型的普遍性、规模，以及价值在最近几年才经历了大规模扩展。本文将介绍大数据系统一个最基本的组件：处理框架。处理...

解读主流大数据架构

解读主流大数据架构前几天读到白发川的一篇文章《对比解读五种主流...参考：常用的几种大数据架构剖析引用了作者文中的一些图片，版权归作者所有。从互联网上下载引用的图片，也归原作者所有。 1. ...

大数据常用的架构

大数据常用的架构随着多年的大数据的技术发展和积累，越来越多的人发现各个公司所使用的大数据技术大致可以分为两大类，分别是离线处理技术和实时处理技术，要么个别公司只有离线处理技术，要么个别公司只有实时...

大数据架构简介

通过合理设计和搭建大数据架构，可以提高数据处理的效率和质量，使得企业和组织能够更好地利用大数据来支持决策和创新。数据源可以是结构化数据，如关系数据库中的表格数据，也可以是非结构化数据，如日志文件、...

大数据架构之--Kappa架构

Kappa 架构是由 LinkedIn 的前首席工程师杰伊·克雷普斯（Jay Kreps）提出的一种架构思想。克雷普斯是几个著名开源项目（包括 Apache Kafka 和 Apache Samza 这样的流处理系统）的作者之一。 Kreps 提出了一个改进 ...

大数据架构新解

下图是阿里巴巴大数据系统架构图：一、数据采集层数据采集主要分成以下三块数据： 1，Web 端日志 2，App 端日志 3，第三方数据（比如 mysql 增量数据同步） Web 端和 App 端的日志数据都需要制定各个场景下的...

深度解密 5 类大数据架构及实现

前几天读到白发川的一篇文章《对比解读五种主流大数据架构的数据分析能力》，文中详细总结了各类数据架构的应用以及原理。作为一名在数据仓库耕耘多年的技术人员，对于其中的一些技术细节还是破解兴趣的，所以随着...

Google已经推出了Google VR SDK，

VR（Virtual Reality）即虚拟现实，是一种可以创建和体验虚拟世界的计算机技术。它利用计算机生成一种模拟环境，是一种多源信息融合的、交互式的三维动态视景和实体行为的系统仿真，使用户沉浸到该环境中。VR技术通过模拟人的视觉、听觉、触觉等感觉器官功能，使人能够沉浸在计算机生成的虚拟境界中，并能够通过语言、手势等自然的方式与之进行实时交互，创建了一种适人化的多维信息空间。 VR技术具有以下主要特点：沉浸感：用户感到作为主角存在于模拟环境中的真实程度。理想的模拟环境应该使用户难以分辨真假，使用户全身心地投入到计算机创建的三维虚拟环境中，该环境中的一切看上去是真的，听上去是真的，动起来是真的，甚至闻起来、尝起来等一切感觉都是真的，如同在现实世界中的感觉一样。交互性：用户对模拟环境内物体的可操作程度和从环境得到反馈的自然程度（包括实时性）。例如，用户可以用手去直接抓取模拟环境中虚拟的物体，这时手有握着东西的感觉，并可以感觉物体的重量，视野中被抓的物体也能立刻随着手的移动而移动。构想性：也称想象性，指用户沉浸在多维信息空间中，依靠自己的感知和认知能力获取知识，发挥主观能动性，寻求解答，形成新的概念。此概念不仅是指观念上或语言上的创意，而且可以是指对某些客观存在事物的创造性设想和安排。 VR技术可以应用于各个领域，如游戏、娱乐、教育、医疗、军事、房地产、工业仿真等。随着VR技术的不断发展，它正在改变人们的生活和工作方式，为人们带来全新的体验。

基于51单片机的自动循迹、蓝牙遥控，超声波避障的智能小车+全部资料+详细文档（高分项目）.zip

【资源说明】基于51单片机的自动循迹、蓝牙遥控，超声波避障的智能小车+全部资料+详细文档（高分项目）.zip基于51单片机的自动循迹、蓝牙遥控，超声波避障的智能小车+全部资料+详细文档（高分项目）.zip基于51单片机的自动循迹、蓝牙遥控，超声波避障的智能小车+全部资料+详细文档（高分项目）.zip 【备注】 1、该项目是个人高分项目源码，已获导师指导认可通过，答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 3、本项目适合计算机相关专业(人工智能、通信工程、自动化、电子信息、物联网等)的在校学生、老师或者企业员工下载使用，也可作为毕业设计、课程设计、作业、项目初期立项演示等，当然也适合小白学习进阶。 4、如果基础还行，可以在此代码基础上进行修改，以实现其他功能，也可直接用于毕设、课设、作业等。欢迎下载，沟通交流，互相学习，共同进步！

整合了在Unity开发过程中自主开发的实用代码，如摄影机操作，角色操作，控制器交互等。涵盖3D游戏到VR领域。.zip

基于GPT-SoVITS的视频剪辑快捷配音工具.zip

基于GPT-SoVITS的视频剪辑快捷配音工具 GPT, 通常指的是“Generative Pre-trained Transformer”（生成式预训练转换器），是一个在自然语言处理（NLP）领域非常流行的深度学习模型架构。GPT模型由OpenAI公司开发，并在多个NLP任务上取得了显著的性能提升。 GPT模型的核心是一个多层Transformer解码器结构，它通过在海量的文本数据上进行预训练来学习语言的规律。这种预训练方式使得GPT模型能够捕捉到丰富的上下文信息，并生成流畅、自然的文本。 GPT模型的训练过程可以分为两个阶段：预训练阶段：在这个阶段，模型会接触到大量的文本数据，并通过无监督学习的方式学习语言的结构和规律。具体来说，模型会尝试预测文本序列中的下一个词或短语，从而学习到语言的语法、语义和上下文信息。微调阶段（也称为下游任务训练）：在预训练完成后，模型会被应用到具体的NLP任务中，如文本分类、机器翻译、问答系统等。在这个阶段，模型会使用有标签的数据进行微调，以适应特定任务的需求。通过微调，模型能够学习到与任务相关的特定知识，并进一步提高在该任务上的性能。 GPT模型的优势在于其强大的生成能力和对上下文信息的捕捉能力。这使得GPT模型在自然语言生成、文本摘要、对话系统等领域具有广泛的应用前景。同时，GPT模型也面临一些挑战，如计算资源消耗大、训练时间长等问题。为了解决这些问题，研究人员不断提出新的优化方法和扩展模型架构，如GPT-2、GPT-3等，以进一步提高模型的性能和效率。

node-v4.3.0-linux-arm64.tar.xz

Node.js，简称Node，是一个开源且跨平台的JavaScript运行时环境，它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立，旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎，可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型，这使得它非常适合处理大量并发连接，从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外，Node.js使用了模块化的架构，通过npm（Node package manager，Node包管理器）,社区成员可以共享和复用代码，极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展，它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等，因此，开发者可以用JavaScript编写全栈应用程序，这一点大大提高了开发效率和便捷性。在实践中，许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台，如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能，简化了开发流程，并且能更快地响应市场需求。

WordPress自适应多功能免费图片主题CX-UDY模板.rar

node-v4.4.1-linux-arm64.tar.xz

频域上的知识蒸馏论文，对论文复现的环境配置，及mmrazor运行命令

FreeKD论文复现的步骤，及环境配置

itextpdf 7生成pdf(主要是文字和表格，支持中文) 博客使用的字体文件

最新Java面试题及答案（Java基础、设计模式、Java虚拟机（jvm))

Java面试题及答案包括：Java基础题，设计模式、Java虚拟机（jvm) 资料部分来源于合法的互联网渠道收集和整理，部分是自己积累成果，供大家参考收取的是收集和整理资料的费用

node-v4.9.0-linux-ppc64le.tar.xz

4顶0踩