摘要
为适应数据应用需求,大数据平台架构持续演进,历经数据仓库、数据湖两个阶段。2020年,湖仓一体概念提出,湖仓一体架构因能实现数据资产统一管理、降低数据冗余、降低大数据平台架构运维复杂性,将成为大数据平台的主流架构。根据爱分析调研,2022年中国湖仓一体平台软件市场规模15.2亿元。其中,科杰科技市场份额占比11.1%,华为云占比9.5%,星环科技占比7.3%。爱分析预测,2025年,中国湖仓一体平台软件市场规模将达近100亿元,2022-2025年三年复合增长率为86%。
图表1:湖仓一体平台软件市场规模及增速
湖仓融合作为湖仓一体的先进架构,在ACID事务性、存算分离、批流一体、元数据统一管理等方面具有明显优势,未来将成为湖仓一体架构实现的主流技术。
要在竞争激烈的湖仓一体市场取得成功,厂商应当重点关注云原生、湖仓融合、Data Fabric、DataOps等能力的构建,以上能力将构成湖仓一体平台软件的技术壁垒。在布局上,需重点布局金融业,同时关注工业、交通等潜力行业。
湖仓一体架构介绍
1.1 大数据平台架构进入湖仓一体时代
随着数据量级持续扩展,数据类型多元化,以及数字化转型深入企业数据应用场景变得日益复杂,业务对于数据实时性的要求需要企业兼具批处理、流处理能力;复杂的业务类型又需要企业同时具备描述性分析、预测性分析、诊断决策性分析以及探索性分析等能力。相较数据仓库、数据湖,湖仓一体更能完全满足数字化转型企业对大数据平台的各种需求。这也预示着大数据平台架构历经数据仓库、数据湖两个阶段后,正式进入湖仓一体新时代。
图表3:大数据架构演进驱动因素1)企业数据分析需求推动数据仓库出现
20世纪90年代,为满足企业敏捷数据分析需求,基于联机分析处理(OLAP)的数据仓库概念开始出现并迅速发展。数据仓库能解决分散数据源的集成、分析问题并作为第一代数据分析平台开始被大范围使用。
2)海量异构数据的分析需求促使大数据平台进入数据湖阶段
21世纪互联网时代,社交媒体、搜索引擎等新应用层出不穷,为数据应用场景带来剧烈变化,数据体量从GB级提升至TB和PB级,原有大数据平台架构的可扩展性远远无法满足计算需求。同时文本、图像、语音等非结构化数据量急剧增长,异构数据低成本存储对大数据平台提出了新的挑战。数据湖以极低成本实现任意格式数据的统一存储、管理和分析,尤其适用于数据挖掘、预测、推荐等高级分析场景等优势开始被广泛应用。
图表5:数据湖示意图在实践中,数据湖本身具有明显的局限性,如数据湖对SQL标准、ACID特性的支持较差,数据质量难以保证,数据版本控制和索引功能也不足,难以完成批处理和流式作业融合,致使数据湖难以完全取代数据仓库,敏捷分析类的企业级应用场景仍然是以数据仓库为主。
数字化转型时代,企业需要采用新的架构实现海量异构数据的低成本存储和高效分析的同时实现数据资产统一管理和共享服务。
为兼具数据湖低成本存储、数据仓库高效分析的特性,企业尝试通过松耦合的方式分别承建数据仓库和数据湖。数据湖集中存储所有数据,数据仓库主要存储结构化数据。此种架构下,数据需要在两套架构间多次备份,产生数据孤岛、存储冗余、开发维护困难、数据响应周期长等问题。
2020年,Databricks首先提出“湖仓一体”的概念,湖仓一体是一种结合了数据湖和数据仓库优势的新范式。同期,国内技术厂商开始探索湖仓一体实践。本报告中,湖仓一体是指结合数据湖和数据仓库的新型架构体系,能实现海量异构数据的统一存储、计算、开发、管理和服务,支持多种高级分析引擎,为企业打破数据孤岛、提高数据应用价值。湖仓一体能有效解决数据孤岛、降低数据存储冗余,减轻系统维护难度,是在数据仓库、数据湖基础上升级后的新型数据架构,未来将广泛被大型企业采纳用于提升数据生产力,助力数字化转型升级。
1.2 实现湖仓一体的两种路线:湖上建仓和湖仓融合
业界对湖仓一体的探索存在湖上建仓、湖仓融合两种路线,湖仓融合代表未来趋势。
1.2.1 湖上建仓数据质量不可靠:数据从数据湖ETL至数据仓库中,数据湖和数据仓库的数据一致性需通过多个流式引擎处理,相较传统数据仓库的批处理,操作复杂度大幅增加,可靠性难以保证,极易产生数据一致性问题。
数据冗余未消除:湖上建仓本质上是数据湖、数据仓库两层架构,同一份数据仍以不同的模式存储在数据湖和数据仓库中,数据冗余并没有彻底消除。
数据仓库不支持机器学习、数据挖掘等计算引擎:以TensorFlow、PyTorch为代表的机器学习、深度学习框架需要使用非SQL代码处理大型数据集,不能直接访问数据仓库的内部数据格式,因而不适用于数据仓库系统。
如图所示,湖仓融合将数据湖多类型数据低成本存储优势与数据仓库高效分析能力融合,通过事务层实现元数据统一,彻底消除数据孤岛、数据冗余,以一套数据实时、准确地支持多种工作负载,加速数据共享流动和价值挖掘。
湖仓融合在数据湖上增加事务层,事务层具备诸如事务管理、统一元数据、索引、事务版本和状态控制、数据目录以及支持湖表格式等功能。事务层支持数据用户灵活读取多类数据,以一份数据支持BI、可视化、数据科学、机器学习等多种计算引擎。事务层使得数据湖在实现对结构化数据、半结构化数据、非结构化数据的统一管理的基础上,具备ACID事务性。目前,Delta Lake、Apache Iceberg、Apahce Hudi等数据湖解决方案均已实现数据湖上的事务层。
而在数据实时分析需求、数据分析体量、资源动态扩展等需求的驱动下,存算分离和批流一体也已成为湖仓融合的必备功能。
此外,对于多数据源系统,湖仓融合也能通过数据虚拟化实现多源系统数据资产的统一管理。
基于国内外企业用户的数字化成熟度和应用场景差异,国内外湖仓融合的产品功能略有差别。
国外湖仓融合厂商侧重垂直技术能力的实现,如Databricks侧重底层湖仓一体架构的实现以及对机器学习的支持,在数据管理和数据应用如数据质量、数据治理、数据指标等方面通过提供丰富、开放的数据API,与生态第三方合作实现。
国内湖仓融合厂商,相较国外企业的垂直技术能力,平台属性更明显。如科杰科技基于湖仓一体具备一站式数据平台能力,提供从数据采集、数据开发、数据治理、数据资产管理、数据建模分析到数据服务等全链路数据能力,更适应国内企业需求。
1.2.3 湖仓融合是湖仓一体架构的未来
爱分析认为,数字化转型时代,湖仓融合更能有效满足企业对多元应用场景的复杂需求,成为湖仓一体架构的主流技术路线,具体原因如下:
1)湖仓融合在数据计算、数据管理、数据应用方面均有明显优势,更好地满足企业数据资产统一管理需求
数据计算方面:湖仓融合路线真正实现基于一套数据的开发、计算和管理,彻底消除数据冗余,在ACID事务性、存算分离、批流一体、实时分析等方面具有明显优势;
数据管理方面:以一套数据支持实现数据工程DataOps和先进数据管理理念Data Fabric;
数据应用方面:以一套数据支持BI、可视化、数据科学、机器学习等数据应用场景,实现多合分析。
图表8:湖上建仓、湖仓融合功能对比2)湖仓融合降低数据迁移风险和成本,为大中型企业的数字化转型提供成熟的解决方案
对比之下,湖仓融合能通过数据虚拟化以逻辑的方式实现对数据库、数据仓库、数据湖以及云上数据的统一组织、管理和共享,降低数据迁移风险和迁移成本。
3)湖仓融合行业团体标准初步确立,市场定义和实践路径逐渐形成共识,加速湖仓融合商业化进程
湖仓一体平台软件市场规模
2.1 湖仓一体平台软件定义
本报告中,将基于湖仓一体引擎架构实现的大数据平台软件定义为湖仓一体平台软件。
2.2 中国湖仓一体平台软件市场规模
1)存算分离:具备存算分离技术,存储资源和计算资源可各自独立扩展、弹性管理、按需伸缩。
2)批流一体:支持批流一体,实现多模态数据融合实时分析,提高数据分析效率。
3)ACID事务性:具备完善的ACID事务机制,支持原子性、一致性、隔离性、持久性,保障不同用户在查询和计算一份数据的一致性。
湖仓一体趋势下,主流厂商纷纷推出湖仓一体产品或解决方案。主流厂商类型覆盖广泛,涉及云厂商、数据库厂商、数据仓库厂商、数据中台厂商、大数据基础软件厂商等。主流厂商的积极研发投入侧面验证了湖仓一体的趋势和未来,但不同产品的实现路线(湖上建仓抑或是湖仓融合),产品的性能与稳定性以及解决方案的成熟性等均有待客户和市场的长期检验。目前,各类型厂商在实现湖仓一体的路径和行业布局上有较明显区别:
实现路径:基于自身IaaS云基础能力,构建云生态或软硬一体化的湖仓一体解决方案。
2)数据库、数据仓库厂商
实现路径:以单一技术路线为主,在自身数据库、数据仓库的基础上实现湖仓一体方案。
行业布局:优先在数据库、数据仓库的深入性行业如金融、政府提供服务。
3)数据中台服务商
行业布局:优先服务零售消费、先进制造、生物医药等新经济行业的集团型企业以及部分金融企业。
4)大数据基础软件厂商
行业布局:以独立引擎提供兼容性的湖仓能力,可在金融、政府、能源、零售、汽车等全行业实现落地。
2.5 湖仓一体平台软件市场份额
图表11:2022年湖仓一体平台软件市场份额占比
2022年,在湖仓一体平台软件市场中,科杰科技市场份额占比11.1%,位居第一。华为云、星环科技市场份额占比分别为9.5%、7.3%,分别位列第二、第三。
科杰科技湖仓一体产品KeenData Lakehouse融合湖仓一体、DataOps、Data Fabric等理念,为企业提供覆盖数据生命周期的一站式数据底座平台搭建服务。科杰科技的服务范围辐射国内以及亚太地区,覆盖金融、工业、能源、汽车、零售等众多行业头部客户,如中国联通、中国石化、中国一汽、国家电网、吉利汽车、中金公司、永旺集团等公司。
华为云湖仓一体产品FusionInsight为客户提供完整的大数据云服务产品组合,基于云计算软硬一体优势和专属云服务,FusionInsight已经广泛应用于政务、金融、通信、交通等行业。
星环科技湖仓一体产品大数据基础平台TDH具有云原生、多模态异构存储、1湖N仓多租户体系、自主可控等特点,星环科技凭其高度独立自主的特性,在信创领域如金融、政务积累丰富客户。
2.6 代表厂商介绍
2.6.1 科杰科技
对湖仓一体厂商的建议
3.1 重点关注云原生、DataOps和Data Fabric与湖仓一体平台的融合
尤其湖仓融合已经基于数据虚拟化技术实现异构系统数据集合,以及全量数据建模、数据治理等功能,是Data Fabric理念的阶段性落地,未来,湖仓融合将推动Data Fabric技术在企业内的快速落地应用。
关键词:
本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXXXX”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处
我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:service@qeerd.com,投稿邮箱:tougao@qeerd.com
鞍钢联众(广州)不锈钢有限公司总经理王金辉率队考察昆仑嘉达新能源“共谋新材料技术合作新篇章”
北京大学新材料学院潘锋院长一行到访昆仑嘉达
财智有猿·数启未来|猿助理超级企业服务中心旗舰店焕新发布会圆满落幕
第六届“少年中国”全国青少儿美育成果展舞蹈表演艺术大赛
九旬老人迷途忘归路 综合执法暖心来相助
作家无戒新书签售在北京图书大厦顺利举办
北京网站建设公司—企迪建站专注网站建设16年,是一家以网站建设、移动客户端开发、互联网应用系统开发、SEO优化、网络整合营销等业务为主的互联网信息技术服务企业。
西安铁路职业技术学院学前教育专业师资力量雄厚,现有专职教师67人,其中教授4人,副教授22人,讲师37人, 具有研究生学历教师占40%以上,其中有7名海外留学人员,并聘请10多名具有丰富实践经验、副高以上职称的兼职教师,形成了一支实力较强、结构合理、专兼结合、朝气蓬勃,适应高等职业技术教育的师资队伍。
中国资本观察网是中国首家专注于资本市场新闻与投资理财资讯的财经全媒体,为您提供7X24小时的财经资讯,汇聚上市公司、基金、证券、银行、保险、新三板、互联网金融等财经方面的综合信息。
著名财经评论员,中国民营经济研究会理事,华中科技大学业界专业导师,中南财经政法大学兼职教授
寻求报道:logan@qidiwang.com商务合作:logan@qidiwang.com
求职应聘:logan@qidiwang.com市场合作:logan@qidiwang.com
企迪网24小时热线电话:029-89258148(工作时间:周一至周五 9:30-18:30)
总部:北京市顺义区旭辉空港中心A座十层 | 西安:西安市长安区府东一路风憬天下2期17号二单元楼1102室
工信部ICP备案号:陕ICP备17012874号-57 | 广播电视节目制作许可证:(陕)字第01864号 | 增值电信业务经营许可证:京B2-20181217 | 陕公网安备:61011602000585号
版权所有:北京企迪信息技术有限公司&北京企迪信息技术有限公司西安分公司