大数据平台是什么

大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理系统的分析挖掘,产生新的知识用以支撑决策或业务的自动智能化运转。从数据在信息系统中的生命周期看,大数据从数据源经过分析挖掘到最终获得价值一般需要经过5个主要环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。每个环节都面临不同程度的技术上的挑战。

数据准备环节:在进行存储和处理之前,需要对数据进行清洗、整理,传统数据处理体系中称为ETL(Extracting,Transforming,Loading)过程。与以往数据分析相比,大数据的来源多种多样,包括企业内部数据库、互联网数据和物联网数据,不仅数量庞大、格式不一,质量也良莠不齐。这就要求数据准备环节一方面要规范格式,便于后续存储管理,另一方面要在尽可能保留原有语义的情况下去粗取精、消除噪声。 

数据存储与管理环节:当前全球数据量正以每年超过50%的速度增长,存储技术的成本和性能面临非常大的压力。大数据存储系统不仅需要以极低的成本存储海量数据,还要适应多样化的非结构化数据管理需求,具备数据格式上的可扩展性。 

计算处理环节:需要根据处理的数据类型和分析目标,采用适当的算法模型,快速处理数据。海量数据处理要消耗大量的计算资源,对于传统单机或并行计算技术来说,速度、可扩展性和成本上都难以适应大数据计算分析的新需求。分而治之的分布式计算成为大数据的主流计算架构,但在一些特定场景下的实时性还需要大幅提升。 

数据分析环节:数据分析环节需要从纷繁复杂的数据中发现规律提取新的知识,是大数据价值挖掘的关键。传统数据挖掘对象多是结构化、单一对象的小数据集,挖掘更侧重根据先验知识预先人工建立模型,然后依据既定模型进行分析。对于非结构化、多源异构的大数据集的分析,往往缺乏先验知识,很难建立显式的数学模型,这就需要发展更加智能的数据挖掘技术。 

知识展现环节:在大数据服务于决策支撑场景下,以直观的方式将分析结果呈现给用户,是大数据分析的重要环节。如何让复杂的分析结果易于理解是主要挑战。在嵌入多业务中的闭环大数据应用中,一般是由机器根据算法直接应用分析结果而无需人工干预,这种场景下知识展现环节则不是必需的。

中服大数据解决方案从结构上分为数据获取层、数据存储层、数据分析层(含数据集市、经营分析、决策支持、数据分析与挖掘)、数据管控以及数据可视化层五个层次架构。

DSJ.png

数据获取层:通过ETL工具将原有业务系统数据抽取到大数据平台,或直接将互联网、物联网数据经过过滤清洗后存储到大数据平台中。

数据存储层:在Hadoop HDFS存储之上,运用 HABSE、HIVE、SPARK等组件,满足用户不同分析场景的需求,这些组件将通过数据分析层调用。利用基于内存的类关系型数据库,主要用于实时和大规模、高并发的复杂分析场景。

数据分析层:数据分析层构建在数据存储层之上,主要利用Hadoop生态系统的组件、数据分析能力实现行业分析场景。数据分析层即包含用户的业务应用也包含具体的分析类型,如实时查询、数据挖掘等。

数据管控:在用户原有的主数据、元数据平台上进行扩展,与大数据平台进行对接,并通过建立数据安全管理策略、梳理数据标准等方式逐步完善大数据平台的数据管控功能。

数据可视化层:支持通用的数据标准以及应用接口,为了降低成本、减少工作量,通过开发部分前端界面满足大数据平台对分析结果展现的要求。

大数据云平台架构

CServer BDPaaS是基于Hadoop分布式架构的大数据平台,专注于实现企业级高性能分布式大数据解决方案。涵盖了大数据产业链的数据采集、数据存储、数据管理、数据计算、数据分析挖掘、数据应用与数据展示的全部环节,提供高性能的海量数据处理能力,并且具有高可靠的安全管理系统和丰富的图形化交互界面,可以为企业级客户提供高效的一站式分布式大数据解决方案。

image.png

l  Apache Hadoop基础

CServer BDPaaS是基于Apache Hadoop 2.7.2开发,以HDFS为文件系统,以YARN为资源管理平台。 CServer BDPaaS对各组件性能进行了优化,提 升安全性、稳定性,从而提供7×24小时的不间断服务。

l  大数据核心扩展

大数据平台的核心与基础,集成了大数据平台的多个底层组件,为用户提供了分布式存储(HDFS)、分布式计算(Mapreduce2、TEZ、Yarn)、协调服务管理(Zookeeper)、数据仓库SQL服务(Hive、Spark)、NoSQL数据库服务(Hbase)、流处理(Storm、Kafka、Flume)、联邦查询(Presto)、分布式内存(SMDS)、索引搜索(ES)等功能和服务。

l  运维管理

在大数据这个领域,大批量数据、高速实时的计算和存储,离不开大规模的集群节点来进行分布式的计算和存储,随着规模的不断扩大,物理机集群的运维监控操作成了制约企业发展的一个重要因素,人工运维成本会成线性增长,基于这样的情况下,大数据统一管理层组件应运而生,帮助实现企业数据平台的可视化的和自动的运维监控操作。

l  数据管控

大数据数据管控层组件帮助用户对大数据平台的数据资产进行管理和维护,包括元数据信息的管理、数据安全权限管理、数据生命周期管理、数据清洗等功能。

l  应用工具

ETL工具提供完整的数据整合功能,源系统支持多种格式的数据源,包 括CSV、JDBC、XML、JSON以及关系数据库;支持多种常用的数据转换操作,例如,连接、聚合、清洗等。由于数据迁移过程中产生 的数据处理任务都在Inceptor中完成,且受完整的ACID支持。

SQL工具包含的子模块有SQL编辑器、元数据管理器、SQL执行器、以及数据导入/导出。提供语法检测、SQL格式化和开发助手等功能,可帮助开发者极大地提高开发效率。

报表展现工具轻量、灵活,可以快速部署。它支持多维度的分析和自助分析,提供数十种报表样式,对时序数据 也有很好的展现。此外, 还支持团队协作和共享,支持导入和导出报表。


元数据管理和数据治理工具,用户可以用它来管理元数据(包括表和存储过程),监控所有数据和程序的更改历 史,进行数据血缘分析和影响分析。开发者可以调试数据问题,追踪问题来源,并帮助数据管理者预测计划进行的元数 据更改会造成哪些影响,能够帮助用户提高大数据的数据质量。

Workflow是一个图形化的工作流设计、调试、调度和分析的服务平台,它支持Shell、SQL、JDBC、HTTP等任务类型,也可以写自定 义Java任务。它还提供丰富的分析能力,如依赖关系、执行历史、甘特图等,可以帮助用户诊断工作流的执行状况。

Bi组件集基于Javascript和HTML Canvas技术实现。它有美观的界面交互效果和强大的功能,适合构建高体验的报表界面。提供我们在应用开发中最常用的折线图、柱状图、饼状图、雷达图、仪表盘和地图六种组件。

  • 易用的工具

    提供了大数据开发工具套件解决开发者在做大数据应用的痛点和效率问题

  • 丰富的展现

    有美观的界面交互效果和强大的功能,适合构建高体验的报表界面

  • 简单运维

    支持图形化运维,并提供了预警和健康 检测功能,帮助用户简化运维过程

  • 多样数据处理

    可以存储和计算结构化或非结构化数据,包括日志记录、 JSON/XML文件以及二进制数

  • 大数据检索

    通过 SQL实现大数据上的秒级全文搜索, 堆外内存管理等技术,极大的提高了系统 的可用性

  • 快速流处理

    支持事 件驱动和微批处理的流处理引擎,计算延迟最低可至 5ms

  • 高处理性能

    可以对从GB 到PB级的数据量实现复杂的查询和分析

  • 高可扩展性

    用户可以通过增加集群节点数量,线性提 高系统的处理能力

Copyright©2008-2018 CServer Corporation, All Rights Reserved

地址:陕西省西安市高新区高新二路协同大厦三楼 电话:029-88386725 建议邮箱:support@cserver.com.cn ICP备11002812号-1  

博评网