Clothing encyclopedia

服装百科

2022爱分析· 中国分析型数据库市场研究报告 爱分析报告

2024-10-18 04:56:18
浏览次数:
返回列表

  技术架构方面,MRS云原生数据湖是湖仓一体◆★★、云原生的数据湖解决方案,主要是基于云原生的存算分离架构部署大数据环境,并对离线、实时、逻辑三种数据湖构建了统一的底层架构。在数据处理层面,引入Hudi简化数据入湖链路、采用增量处理框架,实现数据增量更新、T+0实时入湖;加强了自研的HetuEngine数据虚拟化引擎进行跨源跨域统一SQL访问◆■★★,实现不同专题数据之间进行联合分析;以及将Clickhouse用于自助式OLAP分析。

  功能层面,由于MPP数仓底层的数据依旧由事务型数据库提供,并且经过长时间的发展,其SQL标准,以及ACID特性的稳定性和可靠性变得更高。但MPP数仓仅能处理结构化数据◆★★,无法处理半结构化和非结构化数据★■★。

  团队背景反映的是厂商在数据库产品方面的技术积累和研发经验,头部数据库厂商的核心团队成员通常来自国内外老牌数据库大厂、公有云厂商■★◆,或者顶尖院校★■★◆。

  分析型数据库在行业的落地情况反映的是厂商的产品技术能力得到行业客户的验证程度,以及在行业领域的经验积累情况◆★。不同行业企业由于其所需处理数据量★■、数据类型、分析场景存在差异,其对分析型数据库的功能、性能、成本等方面的要求也各有不同。例如金融■★■◆★■、能源等行业头部企业通常都有着PB级超大规模的数据,需要数据库具备千万级单表查询的高性能,对数据的实时处理能力要求也很高,因此,分析型数据库厂商如果能获得较多金融、能源行业头部客户的使用★◆★◆■,意味着厂商在超大规模数据的计算查询、实时数据处理层面具备很好的性能表现,且数据库产品稳定性较高;而零售行业企业存在大量探索性的分析场景,且对数据存储与处理的成本较敏感,因此,厂商如果积累了较多零售行业企业◆★◆,则说明其在零售领域有较深的行业理解,能满足这类企业个性化的分析场景的需求,且产品具备较高的性价比■■■★。

  在这样的技术趋势下◆■★■■◆,Databricks于2016年推出Delta Lake,旨在在数据湖上支持类似DBMS的数据管理功能,而随着Databricks于2020年率先在业内提出LakeHouse的概念,智能湖仓由此开始兴起。

  技术架构层面,为了应对上述的数据分析需求◆■★,专用于OLAP的分析型数据库从事务型数据库中分离出来★■◆,形成了沿用至今的数据仓库。数据仓库的设计是为了支持快速的数据查询和数据分析任务★◆◆,其技术架构是建立了一套数据流,通过预先定义Schema的方式,将事务型数据库中的结构化数据经过ETL操作,形成“表”结构的数据写入数据仓库中。与此同时,数据仓库在数据组织方式上开始普遍使用列存储取代交易型数据库的行存储,由于列存储具备自动索引■■■◆、减少总I/O、利于数据压缩等优势,数据仓库因此得以极大地提升其查询性能◆■■■★■。

  变化也意味着机遇,为了挖掘出该领域具备潜力的代表性公司,本报告将详细梳理分析型数据库的发展历程和技术演进趋势,重点阐明中国分析型数据库市场的价值和发展空间,建立分析型数据库厂商的评估模型,并对重点公司的产品技术★■◆◆、研发能力、商业模式、行业落地情况进行分析。

  分析型数据库市场发展的近期驱动因素是企业的数据处理与分析需求的升级◆■■。面对新的数据处理与分析需求,企业原先的数据系统存在诸多限制,因此需要对分析型数据库的功能也进行相应升级,这些需求包括:

  产品类型丰富、满足多种应用场景。公有云厂商通常会提供多种类型的分析型的数据库★★◆,满足企业各类分析需求★■■◆。以阿里云为例,其分析型数据库产品包括云原生数据仓库AnalyticDB MySQL版、AnalyticDB PostgreSQL版,实时数仓Hologres、大数据计算服务MaxCompute、基于Hadoop的大数据平台 E-MapReduce★★◆,智能湖仓Data Lake Formation。

  我们建议重点关注能够提供完善数据平台全栈产品★■■◆◆◆,以及实施和咨询服务经验丰富的厂商,这类厂商通常能满足更多类型的客户需求,获得更多的市场份额。此外,公有云厂商在商业模式也存在一定特殊性,这类厂商虽然也能提供数据平台相关的产品、实施和咨询服务,但其侧重点在于为企业提供云端部署的标准化数据库产品■◆★■,且其通常会将数据库产品与自家云基础设施服务绑定销售,定制化服务通常只面向行业大客户。

  滴普科技在精益制造★■■◆★、商业流通◆■★★◆、生物医药■◆、金融科技、能源双碳等领域服务过100多家头部客户,包括百丽国际、新华联■■★◆★、九洲电器、科伦药业、百果园、OPPO、VIVO等■■★,并与深圳市龙华区、佛山市顺德区、攀枝花东区等政府单位合作。滴普科技FastData 能够很好地满足不同行业企业对分析型数据库的需求。例如◆◆◆◆★■,在零售行业■◆■■★◆,FastData 的湖仓一体能力可以很好地支持探索式分析和自助分析,帮助企业实现数据驱动的管理和业务创新;针对先进制造、半导体等行业面临海量数据的快速去重问题★★★,FastData 可以满足高并发◆■◆◆、低延迟的PB级数据处理需求。

  分析型数据库最早是从交易型数据库衍生而来。在数据库诞生和发展的早期★★■◆◆★,其应用场景主要是对数据进行统一的存储、管理和访问★■★■◆◆,因此用户需要数据库能够实现对数据的增改删操作■■★★,也即联机事务处理(OLTP),此类数据库被称为交易型数据库(也称事务型数据库)。随着用户的需求从查看单个交易数据逐渐衍生出对交易数据的汇总、对比等分析需求■◆★★,数据仓库在1980年代开始出现。一直到1993年,关系型数据库之父 Edgar F. Codd正式提出联机分析处理(OLAP)的概念后■◆★,分析型数据库的概念也由此正式诞生★★。

  性能层面,MPP数仓采用无共享存储架构,各计算节点都有独立的存储节点◆◆■,因此并行处理和扩展能力更好,能够满足大数据量(GB或TB级)下的高并发■◆★★★、高性能需求,并且其可扩展性相比共享存储架构有了较大提升。但当集群扩展到数百节点时,MPP数仓依然会出现性能瓶颈,扩容成本同样不菲■◆◆■■。

  功能层面■★★◆■,由于数据湖中各种类型数据都是按原样存储,采用分析时写入Schema(schema-on-read)的模式,因此数据湖的SQL 标准、ACID特性支持较差■■◆,其数据版本控制和索引功能也不足,并且Hive本身不支持单条记录的修改,这些原因导致数据湖难以取代MPP数仓对结构化数据的处理能力。

  在此后近30年的演进中◆◆★,分析型数据库先后出现了共享存储架构数仓、大规模并行处理(MPP)架构数据仓库以及数据湖等技术架构。近年来◆★◆★,随着企业数据分析需求的不断提升,具有流批一体和存算分离★◆★◆,能通过元数据层在数据湖上实现数据管理功能的智能湖仓受到了更多关注◆◆◆,分析型数据库迎来新阶段—智能湖仓。伴随企业数字化转型战略深入推进,分析型数据库内涵也在不断扩展,我们认为当下的分析型数据库是指为应对企业管理、业务◆◆◆■◆、数据分析师、数据科学家等人员对数据的各类分析和应用需求而提供的各类数据存储和计算引擎◆★■■,包括传统数据仓库、云数据仓库、数据湖等◆◆,以及目前正在兴起的智能湖仓■★■。

  性能层面■◆■★■,由于共享存储架构数仓的计算节点能够访问任意的存储节点,其需要配备专有物理硬件,其性能优化良好。但共享存储架构的缺点是可扩展性较差,一般扩展到十几个节点就会遇到瓶颈★◆★◆,因此当数据量达到千万、亿级别时,数据的计算就会出现延时◆■◆◆。

  在国外市场,Snowflake推出了数据云产品,在其云上数据仓库的基础上增加了数据湖的功能。亚马逊云科技基于Amazon S3 构建数据湖■★◆■■■,绕湖集成数据仓库◆■■、大数据处理、日志分析◆■■★、机器学习数据服务实现智能湖仓。在国内市场,公有云厂商如华为云、阿里云■★◆★■◆,新锐数据库厂商如滴普科技也于近年推出智能湖仓产品,并收获了一批行业头部客户。

  最后◆◆★★★,企业业务和分析系统上云正在加速。随着企业的业务系统★■■■、分析系统在往云端逐步迁移,其数据分析系统也因此在云端进行部署,以充分利云的可扩展性和相关技术资源。根据IDC的数据,到2025年全球49%的数据将存储在公有云中。尽管国内市场由于政策监管、企业接受度等原因,国内企业上云步伐不如国外激进■■◆,但长期而言,这一趋势不会改变。

  GBase UP是融合自有MPP 数据库■■★★◆◆、事务型数据库和开源Hadoop生态系统的大数据平台产品,兼顾大规模分布式并行计算、稳定高效的事务处理,以及Hadoop的多种结构化与非结构化数据处理技术,能够适应OLAP、OLTP和NOSQL三种计算模型的业务场景★■★■◆■。

  在这一趋势下,国内数据库市场也有望借助智能湖仓的兴起实现弯道超车★■◆★,诞生出数据库领域的头部公司,改变在交易型数据库为主的时代,数据库市场被国外巨头把持的局面。而为了实现这个目标,就需要国内的数据库厂商积极拥抱分析型数据库的发展趋势★★★,并持续在技术研发上做大量投入,抓住行业发展机遇。

  技术架构传统。传统数据库厂商通常都是沿用原先的技术架构,针对新的功能需求做技术升级和大补丁◆◆■★◆★,由此会造成系统架构越来越复杂■◆,管理和运维成本高■◆◆★。同样以Cloudera CDP为例,尽管最新版的CDP已经在混合云和多云部署、存算分离、多功能分析做更多的支持■◆■◆■,但CDP依然沿用了Hadoop生态体系的技术,目前CDP中已经包含了多达39个开源项目,涵盖存储、计算、流处理、编排、SQL、NoSQL等多种组件,这样的系统架构非常复杂■◆★,管理维护成本高★★。同时★■★,这种传统架构对一些新的功能支持不足,例如★◆,不支持数据库之上提供完整的数据链路等。

  技术架构层面◆■◆■★,南大通用核心产品GBase 系列数据库随着客户需求场景的更迭■★,发展出多种架构来支持不同的业务需求■■◆★◆★。其中面向数据分析市场的,主要是分析型数据管理系统GBase 8a和统一数据平台GBase UP。GBase 8a以大规模并行处理、列存储,高压缩和智能索引技术为基础,具有满足各个数据密集型行业日益提高的数据分析、数据挖掘、数据备份和即席查询等需求的能力。最新的超大规模集群版本GBase 8a MPP Cluster单个集群支持部署 300 个以上的数据节点,整套集群可处理 15PB 以上数据。

  商业模式层面,南大通用通过构筑产品上下游生态体系提升市场竞争力,将自身数据库产品与国内云平台、操作系统■★■■■◆、处理器、中间件等进行深度适配,改进产品并且创新商业模式◆■■★★◆,推出适应行业的销售策略■★■。截至目前,南大通用GBase系列数据库已与国内主要厂商的上千款软硬件产品完成兼容适配认证,并持续加强与集成商◆■◆■、云厂商◆■■、软件开发商以及开源社区的生态合作■■★★,深化产品结合与优化。

  在解析第四代分析型数据库在技术架构、功能和性能层面的特征之前■■■★,我们需要首先了解近年来数据分析的应用场景、数据以及计算环境等方面发生的重大变化趋势★■◆,以及现有的分析型数据库在应对这些变化时的主要缺陷。

  通过元数据层在数据湖上实现数据管理功能。智能湖仓使用标准文件格式(如Parquet)将数据存储在对象存储中,并在对象存储上构建元数据层,从而在元数据层实现诸如ACID事务处理、版本控制等数据管理功能,使得多种计算引擎可以共享统一的数据存储。同时■■,通过对缓存■★◆、辅助数据结构(如索引、统计信息)和数据布局进行优化,智能湖仓也具备了良好的SQL性能■★。

  通过分析近年来数据分析的应用场景、数据以及计算环境等方面发生的变化,以及现有的分析型数据库在应对这些变化时的主要缺陷,我们认为,下一代的分析型数据库必然会朝着增强分析性能、提升易用性、降低使用成本的方向发展■◆★■◆。

  分析型数据库市场参与者众多★■,为了更准确地判断市场格局,理解主要厂商的竞争优势◆■★,我们从五个维度梳理了分析型数据库厂商关键竞争要素◆■,包括:厂商背景、自研能力、技术架构、商业模式、行业落地◆★★◆。

  商业模式层面,国外厂商以提供数据库产品为主,而在国内市场,由于企业的数字基础建设整体上较落后★★■,企业通常需要厂商提供出数据库产品之外,搭建数据平台所需的工具组件,以及相关实施和咨询服务。

  测算逻辑:场景指人工智能技术能够应用的最小单点应用,如点餐APP智能推荐,潜在应用场景通过(企业内部系统数)*(每个系统中可以应用人工智能替换人工操作或规则模型数量)进行估算

  客户基础好◆■★■★◆。在分析型数据库开始兴起的早期,一些传统数据库厂商凭借领先的产品和技术★■■★■,完善的管理工具和服务◆◆,占据了大量市场份额,并一致延续到现在。以Oracle为例,在国内市场,大量金融、电信等行业企业至今还在使用基于Oracle数据库构建的数据仓库。而在国外市场,大部分世界500强,以及更多中小型企业也是Oracle的用户。随着分析型数据库的技术发展,Oracle也不断与时俱进,推出了云数仓产品Oracle ADW,从而满足更多客户的需求。

  存储计算资源难以弹性扩展★■★,制约了大数据量下数据分析的性能和速度■◆★◆★。无论是MPP数仓还是本地部署的Hadoop大数据解决方案,其存储和计算资源都是耦合的。这种设计通常会导致存储资源冗余而计算资源不足,扩展成本高,并且节点扩展会存在上限。面对大数据集■★■◆★,企业可能需要花费数小时或者更长时间来查询数据,从而限制了大数据分析的性能和速度。

  基于开源技术做二次开发,厂商能持续给开源社区做贡献■★★,并在开源社区的具备较高技术影响力是关键。厂商对源代码的更改如果不被主流社区接纳■★◆★■◆,其产品技术与存在与主流社区脱节,产品稳定性不足的风险。

  另一方面,为应对新的趋势,国内外传统数据库厂商、新锐数据库厂商和公有云厂商等各类厂商近年来纷纷加大对分析型数据库的投入和布局,它们或推出了新一代的智能湖仓产品■◆★◆,或对传统的数据仓库、数据湖进行了重大升级◆◆■★★■。

  MRS在不足在于其全套方案是通过集成华为内部产品(如GaussDB数据库)和第三方厂商产品(如永洪BI工具)来覆盖数据基础设施和大数据处理流程各个阶段的能力,不同产品组件的连接和统一管理方面的功能不够完善。

  注:部分最近几年新成立的数据库厂商,主推传统MPP数仓或数据湖产品,同样归为传统数据库厂商■★◆★◆★。

  2、大数据平台软件还包括了数据开发、数据资产管理、平台监控管理等运营管理工具■◆■■◆★。由于数据湖或智能湖仓厂商通常也会提供这些软件服务,因此可以认为大数据平台软件市场规模属于这类厂商能够触达的市场规模◆★。

  随着企业数据分析需求的不断变化,以及技术的持续演进,分析型数据库的定义和内涵也在不断延伸■■。我们认为,当下的分析型数据数据库是指为应对企业管理◆★◆◆◆、业务、数据分析师、数据科学家等人员对数据的各类分析和应用需求而提供的各类数据存储和计算引擎,包括了传统的数据仓库■■、数据湖,以及目前正在兴起的智能湖仓。

  分析型数据库最早的定义的是指从分散的数据源中抽取◆◆、清理和汇集各类结构化数据,形成面向特定分析主题的、相对稳定且能反映历史变化的数据集合,并通过OLAP引擎来对这些数据进行分析◆◆◆★,也即通常所说的数据仓库◆■。

  技术架构层面,对于该阶段的数据分析需求,企业通常是建设一套用于分析查询的历史数据库来汇集不同事务型数据库的原始数据。

  自研能力较强的厂商能够掌握分析型数据库的核心代码★★◆◆■,从而在数据库的功能迭代和管理运维方面提供原厂级服务,具备较强的竞争优势。厂商掌握核心代码可以从源头解决软件的核心问题,一方面■◆,厂商因此可以主导产品的功能迭代◆■◆■■,并针对不同客户的个性化需求做定制化功能■◆◆★■■;另一方面◆■◆,厂商可以在网络存储计算资源、安全管控等方面做更深的优化,提供原厂级的数据库管理运维工具,以提升数据库的性能■★◆★★,并使得数据库具备更高的稳定性和安全性。

  基于数据库的共享存储架构数据仓库是分析型数据库最早的形态,其可以追溯到诞生于1970年代末到1980年代初的Oracle、DB2。在该阶段,企业的数据分析的应用场景较单一,主要是面向管理层提供若干固定报表■■◆。数据类型为结构化数据,数据量也相对有限。

  厂商成立的时间较早一般意味着其在数据库市场有较深厚的积累★◆★,这类厂商有着较高的市场知名度,产品通常成熟稳定,服务的客户数量也较多,而近年来新成立的厂商通常在产品技术层面有较大创新★◆★■,能够满足企业快速变化的数据处理需求。

  1、数据仓库和大数据平台软件市场规模数据都包含了本地部署和云端部署两种模式。

  在实践中,大量企业还在使用传统的数据仓库和基于数据湖的大数据解决方案,并且很多企业内部有多套数据系统并行,满足不同的数据分析需求◆◆◆★★。但由于诸多原因,这些解决方案通常存在以下主要的缺陷:

  随着数据成为驱动社会与经济发展的核心生产要素,作为关键数字基础设施的数据库,其技术趋势和市场格局正在经历剧烈的变化。

  服务能力不足。公有云厂商的业务重点是在云端为企业用户提供标准化的产品,而国内大量企业目前还倾向使用私有化部署的模式★◆★★,应对这类需求★★◆★■★,公有云厂商通常会与生态合作伙伴合作,将实时部署服务外包,缺乏原厂服务会造成项目质量参差不齐。此外,对于部分企业的定制化功能需求,公有云厂商通常也难以满足。

  最早的MPP(大规模并行处理)数据仓库是Teradata于1984年推出的基于专有硬件的无共享架构MPP数仓,后来也出现了基于x86通用服务器的MPP数仓Greenplum、Vertica。在该阶段,企业数据分析的应用场景已经从面向少数管理人员提供固定报表,转变为面向业务人员提供更广泛的批处理报告、BI和可视化,以支持业务决策■■★◆。与此同时◆★,企业需要处理的数据类型依旧是结构化数据,但数据量出现了快速增长,达到了GB或TB级★◆。

  厂商的分析型数据库产品采用不同的技术架构◆★★,代表了其技术路线和场景适用能力的不同★★■◆★★。目前市场上主流厂商提供的分析型数据库包括了前文所述的第二代到第四代,即MPP数据仓库,数据湖(基于Hadoop生态)以及智能湖仓。

  云原生、存算分离。基于云原生架构,智能湖仓存储和计算资源得到有效分离,企业可以基于需求灵活地对存储和计算资源进行分别扩展,且扩展需求几乎没有限制■★★■◆■,从而实现对大规模数据查询与分析的高性能,并显著降低TCO(Total Cost of Ownership)。

  同时,根据IDC的预测数据,到2024年,中国数据仓库市场规模为168◆★★■◆■.5亿元■■■★★,中国大数据平台软件市场规模为352.9亿元。综上数据■◆◆★■★,预计2024年,中国分析型数据库市场规模将达到521.4亿元,复合增长率CAGR为27.7%。

  在这样的背景下,企业内部的数据分析与应用数量急剧增长,除了传统基于结构化数据的BI应用,实时数据处理与分析的需求在快速增加。与此同时,大量的创新性的AI/ML应用层出不穷。根据爱分析预测,头部企业潜在AI/ML应用场景数量最多可达到5000到10000例■◆■◆◆★,中长尾企业的AI/ML应用场景数量可达到100到1000例。

  受产业特性、行业和企业发展阶段◆★■■,企业数字化程度等因素影响★★★,国内企业在实践中对上述因素的需求程度存在较大差异。对此,我们对多个行业企业的相关需求进行了调研,发现金融◆◆、能源、先进制造、零售等行业企业目前存在多个显著的数据处理与分析需求升级因素。

  对人工智能和机器学习等高级分析的支持不足■■★■■★。当前流行的TensorFlow、PyTorch和XGBoost等机器学习系统很难在现有分析型数据库之上高效运行,因为这些系统从数仓或数据湖中读取大型的数据集时需要写非常复杂的非SQL代码,并且数据湖本身缺少数仓丰富的数据管理能力,如ACID特性、数据索引、数据版本控制等,进一步加大了读取数据的难度。

  分析型数据库市场参与者众多。在几十年的发展历程中,分析型数据库已经经历过四代演进,传统数据库厂商通过不断迭代产品满足用户需求,依然是该市场中的主要参与者。近年来,随着数据成为企业最重要的生产要素,企业对数据存储与处理变得更加复杂,国内外市场中涌现出了一批新锐的数据库厂商,他们在产品设计上采用了最新一代湖仓一体的的架构设计,而各大公有云厂商也推出了面向多种应用场景的分析型数据库产品■◆◆★★。

  功能层面,共享存储架构数仓具备很强的稳定性,支持各类SQL标准,以及ACID特性(即数据库的原子性◆★、一致性■■★■、隔离性、持久性)★◆■★★。

  分析型数据库诞生至今,已经经历了共享存储架构数据仓库■◆、MPP数据仓库、数据湖三代的发展■★,目前正在往第四代智能湖仓方向演进。在这一发展历程中,驱动分析型数据库代际演进的因素主要包括了应用场景、数据以及计算环境三个层面不断发生的变化,也由此造成几代分析型数据库在技术架构、功能和性能层面的根本差异。

  首先★■■■◆◆,企业数据分析的应用场景变得更加广泛。数据正在成为业务创新的核心,基于数据分析■◆★◆,企业可以预测客户行为★■■、提供个性化的客户体验、预测市场趋势、制定业务战略等,从而提高企业的竞争力■★◆★★■。与此同时■◆,数据分析门槛的降低使得企业内部越来越多的业务人员成为数据消费者◆■★,并向“人人都是分析师”的方向演进。

  系统架构复杂,稳定性差,管理和维护成本高。企业在过往多年的发展中,由于技术能力、资源、制度流程等多种因素的限制,采取了很多临时的数据方案。一方面,企业会在原有数仓和大数据系统中,根据需求不断做升级、打补丁■★◆■◆。另一方面,由于数据仓库和数据湖都存在各自的不足,为了满足不同的数据处理与分析需求,企业经常会建立独立的系统来处理数据,例如单独建立的数仓、数据湖◆◆◆★◆■、流数据处理平台等。这些因素导致企业实际的数据系统架构非常复杂,技术债务累计,系统的管理和维护成本非常高■■◆◆◆★。

  性能层面,SQL-on-Hadoop在软件上实现了存储节点和计算节点的互相独立,可以分别独立扩展,因此其节点可以扩展至数千规模。由于实践中◆★◆★,企业部署Hadoop主要还是基于物理机,在硬件层面,其计算与存储资源仍然是绑定的。

  客户接受度有待提升。新锐数据库厂商在产品技术层面具备领先优势◆★,但企业用户对新一代的分析型数据库的接受度还有较大提升空间。一方面◆◆★★■,大中型企业通常数字化程度较高,它们在传统的数仓、数据湖建设上已经有了较大投入,其数据平台中已经有了大量的业务应用和ETL任务,直接迁移的工作量和成本非常高。因此,目前企业通常都是出现大量新的数据存储和处理需求的时候◆■◆★◆■,才会引入智能湖仓。另一方面,区别于国外企业对于上云的激进步伐,国内企业整体上上云步伐较慢,很多企业目前还是采用本地部署的模式◆■★◆■,难以发挥云原生带来的敏捷◆■、弹性■★◆◆★★、低成本等多种优势。

  后疫情时代背景下,分析型数据库在更多业务场景中实现了更广泛的应用,如流调溯源、时空分析等,分析型数据库市场也迎来了爆发式增长。近些年国内分析型数据库创业公司日益涌现◆★★★■◆,产业资本不断涌入◆★■◆★,获得融资的公司数量及额度均大幅增长。据公开资料统计,2013-2021年,主打数据分析场景的数据库企业成立数量为11家■★◆★■,占总数据库企业总成立数量的24%,融资次数共计约40余次★◆★,融资总额约近50亿元人民币。竞争激烈的市场,哪些公司具有真正潜力;当前火热的市场是否只是一场泡沫◆◆■■★;◆◆★★“智能湖仓”阶段后★■★■◆,分析型数据库又将向哪个方向发展,本报告将进行一一梳理和详细解答。

  厂商背景能够反映厂商在相关领域的底蕴■◆、研发实力★★◆★■、发展策略等,主要关注成立时间、团队背景、产品定位等信息。

  分析型数据库已经经历了数十年的发展★★★■◆,期间伴随了多个关键概念的提出,以及众多厂商推出的重要产品■★■■,这些事件成了串联分析型数据库发展历程的关键节点◆◆■★■,也大致勾勒出了分析型数据库的演进趋势。

  分析型数据库最早的定义是指从分散的数据源中抽取、清理和汇集各类结构化数据★★,形成面向特定分析主题的、相对稳定且能反映历史变化的数据集合,并通过OLAP(联机分析处理引擎)来对这些数据进行分析,即通常意义的数据仓库。其中OLAP数据库概念最早由关系型数据库之父d于1993年首次提出,他认为用户的决策分析需要对关系型数据库进行大量计算才能得到结果,OLTP(联机事务处理)已经不能满足终端用户对数据库查询分析的需要◆★◆◆★◆,因此,E.F.Codd提出了多维数据库和多维分析的概念。OLAP数据库的提出引起了很大的反响,OLAP数据库作为一类产品同OLTP数据库明显区分开来■■。

  企业对分析型数据库的功能升级需求★◆◆■,近期内会存在沿用传统的数据仓库或数据湖进行功能升级,以及采用全新智能湖仓两种路径。长期来看★★,我们认为★■■★,未来的企业都会是高度数字化的◆◆,在需要处理的数据规模以及数据分析场景广泛性方面也都会趋于统一,企业都需要构建统一数据存储与计算底座,而传统的分析型数据库由于自身的种种局限性◆■■◆■,将会逐渐被智能湖仓取代◆■■,企业将完成分析型数据库的全面迭代。

  智能湖仓在未来将逐步替代传统的数据仓库和数据湖,其潜在可触达的市场即为整个分析型数据库的市场。作为下一代分析型数据库,智能湖仓能够直接在数据湖的低成本存储上实现类似数据仓库的数据结构和数据管理功能,从而兼具了传统数据仓库与数据湖的数据存储与计算能力,在功能、性能★■■◆■■、成本等方面具备显著优势。因此,我们认为长期来看★◆★■■,随着企业数据量的进一步增长,分析场景的更加丰富◆■■■★,智能湖仓将逐步替代传统的数据仓库和数据湖,其潜在可触达的市场规模即为数据仓库与大数据平台软件的市场规模之和■◆◆。

  商业模式层面★■◆,滴普科技在数据库产品之外也为企业提供数据平台全栈产品以及相关服务。FastData能为企业全栈数据运营管理能力,包括提供完善的数据治理体系和数据资源盘点工具◆◆★★■■;通过开发、发布★■■◆、运维的全链条管道管理■■★,实现诸如清洗、统计 、归档等各类ELT任务的高效开发和智能运维★◆◆◆■■;提供数据资产管理工具对数据资产进行可视化管理、加工及服务◆★◆◆■,通过指标/标签/模型等元素实现对企业业务场景的数据化◆★■,并提供数据资产的编制和运营能力等。与此同时,滴普科技也为客户提供实施和咨询服务◆◆,为企业提供高质量和具备性价比的原厂服务★◆★★,并能满足客户的定制化开发需求。

  根据IDC的数据★◆■★◆,2021年★★■,中国数据仓库市场规模为87■◆◆■.1亿元人民币,大数据平台软件市场规模为162.8亿元。其中,IDC定义的大数据平台的存储计算引擎包含了数据湖和智能湖仓两类。因此,可以认为2021年中国分析型数据库的市场规模为当年数据仓库与大数据平台市场规模之和◆◆,为249★■★★.9亿元。

  滴普科技成立于2018年■★★■■◆,是国内领先数据智能产品及服务提供商■■,其核心产品云原生数据智能平台FastData,包含核心实时湖仓引擎DLink,旨在为企业建立湖仓一体和流批一体的分析型数据库★◆■★。公司研发人员占比85%以上★★■◆★,核心成员是来自华为■◆■■、阿里、AWS★★■★、IBM、Oracle等头部厂商多年的数据库产品技术专家。

  分析型数据库包括了数据仓库◆★★■■、数据湖以及智能湖仓,因此,分析型数据库的市场规模为这三者的市场规模之和。

  重点关注国内提供新一代分析型数据库的厂商。一方面■◆■,由于厂商底蕴、定位等方面的不同,国内外很多厂商会提供多种类型的分析型数据库产品,我们认为新一代架构的分析型数据库产品智能湖仓在处理大规模数据,支持多种分析场景方面具备领先的优势■◆◆■■■,未来将会逐步成为分析型数据库市场的主流■■■■。另一方面,由于信创政策的影响,国内企业◆◆■■,尤其是金融、电信◆◆■■、能源等国有企业在应对未来分析型数据库升级需求时,基本都会选择国内厂商的相关产品。

  其次,企业的总数据量以及实时数据正在以前所未有的速度爆发式增长。随着互联网的深入发展★■★◆,以及云、5G等基础设施的成熟和兴起,大规模的应用程序◆★★■■、移动设备、边缘设备的联网导致数据规模激增,大量企业需要处理数据量将达到PB级◆★◆★★,甚至更高。根据IDC的数据,到2025年全球数据总量将达到175ZB◆■★,而其中有超过25%为实时数据。

  一方面◆■,数据规模的迅速膨胀,以及大量创新性的数据分析和应用场景的出现,对分析型数据库的存储和计算能力也提出了更复杂的要求。

  稳定性和安全性高。成立时间较久的传统数据库厂商,其产品经过长期的打磨迭代◆■◆,已经得到大量客户的使用和验证,因此其通常具备很高的稳定性和安全性。例如,Cloudera基于Hadoop生态先后推出了大数据平台CDH和CDP,尤其目前的发行版产品CDP在计算引擎■◆、多种分析功能■★■◆、管理工具、资源调度等方面都做了大量深度优化,并且Cloudera在全球有700多名研发工程师,能保证用户获得稳定的使用体验。同时,借助共享数据体验技术(SDX)、CDP 中的安全和治理功能,CDP能够实现不同云上企业数据安全、隐私和合规的一致性。

  自研能力层面,滴普科技与开源社区联系紧密◆◆★■★★,其在客户服务过程中结合客户的实际场景和需求,在元数据管理、数据存储格式和数据分析性能上做了大量工作,例如◆★★◆,滴普科技联合Iceberg社区在索引和维表等技术之上做了增强和优化,大幅提升了数据查询性能;在统一元数据之后,滴普科技在 Trino 和 Flink 之上构建了统一的 ANSI SQL 层★◆■,提供了一致的使用体验,进一步提升易用性◆■。滴普科技将这些Flink、Iceberg、Trino 等开源组件上的优化和新特性逐步回馈开源社区,在开源社区具有较高的活跃度和影响力★★◆。

  技术架构层面,为了承载对大量结构化、半结构化■■■◆★★、非结构化数据的存储与处理,Hadoop体系使用HDFS做数据存储,可以灵活地以低成本存储任意类型的原始数据,使用Mapreduce★★■◆■、Spark等引擎做大数据计算◆★■◆◆。随着Hive、SparkSQL等大数据组件的出现,企业可以基于Hadoop实现数据仓库(SQL-on-Hadoop)的功能,即将数据湖的数据经过ETL到数据仓库★◆,以支持BI等应用。与此同时,Storm◆★、Flink等流处理引擎,也能够一定程度满足企业实时数据处理的需求。尽管2015年后,云服务商提供的对象存储如AWS S3大量取代私有部署的HDFS,存储成本降低很多,但基于数据湖的大数据架构基本没有改变。

  客户服务层面,MRS的客户基础覆盖全球60+国家和地区◆◆■■■■、3000+政企客户,目前聚焦在政府、金融、运营商、大企业等行业◆◆◆■★★,在IDC发布的中国大数据平台市场份额评估中连续三年排名第一◆■■◆。

  技术架构层面,FastData对底层各个技术栈进行了统一,从而实现湖仓一体与流批一体。FastData 在数据存储中采用统一的数据存储格式,通过统一元数据层兼容 Hive Meta Store 接口◆◆★◆,可实现 Flink、Trino、Hive 等常用大数据分析、计算引擎的无缝接入和良好的互操作性,并且使用统一的 SQL 编辑器支持各主流的 SQL 类操作。同时★★■◆■■,FastData 基于 Iceberg★■■★、Flink 和 Trino 引擎做了大量技术优化,用一套架构实现数据的采集、转换、存储和分析的实时能力(分钟级)。

  流批一体,简化系统架构。智能湖仓可以实现批处理与流处理的统一,通过CDC(Change Data Capture)将业务系统数据实时抽取到数据湖◆◆,实时加工后传输至OLAP系统中对外服务,实现端到端过程的分钟级时延★■■◆★。与此同时◆■■★,系统架构得到简化,大幅降低了系统维护以及数据开发工作的难度。

  随着国内企业数字化转型的加速推进,分析型数据库市场有望迎来重大机遇。在近期★◆■,金融◆◆、先进制造、能源、零售等行业领先企业由于其数据量大■★◆★◆、分析场景更多样、实时性要求高等因素会率先对分析型数据库功能进行更新升级。在远期,大部分企业都将会是高度数字化的■★,它们的主要业务都由数据驱动,因此需要采用新一代的数据存储与计算引擎,方便满足更多样化分析需求◆◆,并且具备高性能、低成本等特征。

  传统数据库厂商包含两类,一类主要提供传统的MPP数仓,另一类主要提供基于Hadoop生态的数据湖服务◆★◆★◆★。这类厂商很多都有着悠久的历史★■◆■★◆,甚至伴随着几代数据库的发展至今★★,如Oracle◆★■■■、Teradata等。

  华为云MRS是华为云于2020年推出的原生数据湖服务,是华为云大数据云服务产品FusionInsight的存储计算引擎。华为云FusionInsight专注于为政企客户构建企业级数据湖提供完整的数据存储、计算■◆■★、运营管理产品和解决方案服务。

  技术架构先进、满足多种分析场景★■■◆◆◆。新锐数据库厂商在技术架构上很多采用了全新一代的设计■◆◆★,包括了湖仓一体、流批一体、云原生等★■★★,并且对存储计算引擎做了大量优化,能够以低成本、高性能满足企业的多种分析需求。 以滴普科技为例,其智能湖仓产品FastData底层采用了统一的数据存储,通过统一技术元数据层实现完善的数据管理能力◆■■★■,并对接各类分析引擎,满足企业对多模数据统一存储与处理■★★,以及批处理、流式计算◆■★■、交互式分析■★★、机器学习等各类分析需求。同时★★◆■◆,FastData采用流批一体架构,能够实现PB级数据秒级实时分析◆★■★。

  销售绑定云服务◆★★◆■,缺少中立性。公有云厂商在IaaS、PaaS和SaaS层提供了丰富的产品和服务,其在销售数据库产品时★■■◆★◆,通常会绑定其IaaS层的存储、计算资源、以及相关的运维服务,这会降低企业的选择范围◆■■★■,增加使用成本。

  正是由于上述因素的推动,分析型数据库经历了四代的持续演进,并在技术架构、功能和性能方面不断进化。我们认为,传统的分析型数据库包括数据仓库★■◆◆、数据湖在当下依然能满足一些企业的部分需求,并且它们也依然会在市场中存在较长的时间,但作为下一代分析型数据库智能湖仓由于其具备的诸多优势,必然会逐渐成为大部分企业的核心数据底座。

  数字化时代◆■◆◆◆★,数据使用场景呈现多元化趋势,数据规模也随之爆发式增长★■★■。海量异构数据的爆发式增长,对数据库的存储和计算能力提出了更高的要求。分析型数据库因其在处理海量实时数据时具有优秀的存算和管理能力,近年来赢得了市场的青睐★★。

  缺乏优化的性价比,资源消耗大、成本高。一方面■◆■◆★★,在数据湖加数仓的两层架构中■◆◆■★,数据会首先被ETL到数据湖中■◆■,之后再被ETL到数仓中,这会在系统中引入额外的复杂性,不仅需要付出大量的ETL作业成本★◆■★,并且将数据从数据湖复制到数仓中也会需要支付两倍的存储成本。另一方面,由于数仓使用的是专有数据格式,将这些数据或工作负载迁移到其他系统也会产生额外的成本★■■。

  因此◆★■■★,对于分析型数据库厂商,尤其是智能湖仓厂商,我们应重点关注其与开源社区的联系紧密度,以其在开源社区的技术影响力,只有厂商对开源技术的二次开发能持续回馈到主流社区,在主流社区建立较领先的地位,并可以一定程度上影响开源社区的技术发展路径■■■◆★,才可以被认为具备较强的自研能力◆■■◆★。

  南大通用自2004年成立以来,专注于数据库软件的自主创新★◆■◆■,保持产品核心技术和底层代码自主可控,旗下分析型数据库和交易型数据库产品完全依靠自研,2014 年通过引进 Informix 数据库源代码推出了高端事务型数据库■■◆■,逐步形成全技术栈的数据库产品和服务■◆★。

  GBase 8a已经在金融◆■、电信★■■、能源等行业服务超过2000家企业◆★■★,主要包括中国移动、中国联通、中国电信、银监会★★、公安部■◆◆◆■、安全部、工信部■◆■■■、国税总局■■◆◆■★、国家海洋局、中国石油等重要部门和大型国央企■◆■◆★■,部署节点超过25000个,管理超过200PB数据■◆◆◆★★。

  由于公司底蕴◆★★◆,技术路线等原因■★◆■■■,不同类型厂商在产品技术能力◆◆★、商业模式、客户积累等方面存在诸多差异■■★■★■,因此具备相应的优势与不足。

  分析型数据库厂商的自研能力包含两种方式◆★■,即自研数据库内核或基于开源技术做源码级改造并回馈开源社区■◆★◆。自研数据库内核的在数据仓库厂商中较常见★■◆,但国内外主流数据湖和智能湖仓厂商通常都是基于开源技术做二次开发。例如,智能湖仓厂商主要基于Netflix开源的Iceberg或Uber开源的Hudi做商业化版本产品,典型厂商产品如基于Iceberg的滴普FastData■★★◆◆、基于Hudi的华为MRS、基于Flink+Iceberg的网易Arctic平台等◆◆◆★★◆。尽管DataBricks目前已经开源了其Delta Lake★◆■,但DataBricks之外,市场上暂无主流的相关商业化版本产品■◆■■◆■。

  国内厂商依据不同分类,其商业模式也有相应差异。传统的数据库厂商通常只为企业提供数据库产品■■◆★■★,以及数据库运维工具和部署服务;大数据解决方案提供商,包括数据湖或智能湖仓厂商除了提供数据库产品,通常也会提供包括数据开发、数据治理、数据资产管理等搭建数据平台所需的工具组件,以及针对数据平台搭建的实施和咨询服务◆★■■◆。这其中★★■◆,厂商间的主要差异在于■◆,各厂商的数据平台相关的工具组件数量和功能完善度存在一定区别,受限于服务过的客户范围和经验积累,其实施和咨询服务的效率和体验也存在优劣之分。

  以Hadoop为代表的数据湖出现在2005年之后。在该阶段,由于互联网的兴起,企业需要处理的数据呈现出多类型、大规模的特点★★。一方面■■◆◆★,数据类型除了包含大量结构化数据,为包含了各类半结构化数据(如CSV、XML★■★■◆、日志)、非结构化数据(如文档、图片◆★、音频、视频)。另一方面,数据量从GB或TB级进一步提升至 TB或PB级。与此同时■★★■★,企业的数据分析的应用场景已经变得更加丰富★■,除了传统的数据查询、固定报表,也出现了大量面向业务监测和洞察的自助式分析,并且出现了一定的实时性数据分析场景。

搜索