博鱼(BOYU)体育官方网站-APP Platform
网站建设资讯

为什么说DataOps是数据中台的拐点?

行业资讯 2022-05-15 01:37:47 | 阅读:1100

新眸企服组作品

作者|桑明强

要说最近企服圈什么最被关注,SaaS和数据中台想必是大多数人心里的谜底。

前者商业模式已经被证实,Salesforce就是最好的例子,后者从刚泛起时的火热,到被质疑跌落谷底只用了短短3、4年时间。这让许多人好奇,为什么在“数据价值已经被证实”和“企业数字化转型也成了多数CEO共识”的当下,人人对于数据中台的看法还会出现南北极分化,看好的人坚定以为数据中台是企业数字化转型的“解药”,看衰的人劝戒偕行不要上中台,它是鸡肋,是“毒药”。

归根结底,是由于业界对一个要害问题的看法还没有杀青一致,即数据中台事实是不是支持企业数字化转型的最合理的数据基础架构?翻译一下就是,数据中台能不能知足企业数字化转型的最大条约数,或者说媒体先生们口中的最优解。

数据中台是一个“新物种”,但它的新仅仅停留在海内厂商的造词能力上,它降生于海内,不懂手艺的人容易被“中台”二字带偏,误以为它是一副万能药,在硅谷,实在也有一些着名独角兽公司有着和数据中台架构相类似的数据基础架构,但他们习惯把它叫作数据平台,而不是数据中台。

这里我们需要明确的是,所谓的“数据中台”,它只是一种叫法,就像“”一样,详细界说和内容往往需要凭证要实现的目的和要解决的问题来确定。以Twitter为例,公司从2011年的300人,生长到2014年的4000人,大数据平台从80台服务器的单纯Hadoop集群,扩展到8000台服务器的焦点数据处置平台,打从在很小规模时,Twitter就是一家数据驱动型的公司,而它治理的底层支持,是一个全局共享的大数据平台。

图:Twitter大数据平台架构(泉源:《云原生数据中台:架构、方式论与实践》)

这种平台型架构的利益是,Twitter在营业和组织快速扩张时,能做到统一数据规范、消除数据和应用孤岛。回到海内,多数企业在搭建数字化信息系统时,也就是在顶层设计的初期,并没有做到面向未来,以是一旦组织扩张速渡过快,数据层面的虚耗和组织层面的冗余也就随之而来,在这种情形下,企业往往盲目寄托于上数据中台,把肩负丢给数据智能服务提供商,但却忽略了自身的症结要害所在,以是难免越做越错。

一样平常来说,数据智能有3个生长阶段:大数据平台建设阶段、数据治理及应用阶段和数据能力中台化阶段。就现在来看,大部门企业的数据平台建设已经举行到一、二阶段,但要顺遂过渡到第三阶段,就绕不开一个要害方式论的辅助——DataOps(数据运维),值得一提的是,它是许多硅谷公司在解决第三阶段问题时普遍接纳的方式论。

DataOps由DevOps看法衍生而来,是基于元数据开发和部署数据剖析应用的一种天真迅速的方式。“它让数据开发历程变得迅速可控,这是眼下许多公司最头疼的事。对于大多数企业来说,数据在调整历程中容易缺少版本治理、缺少连续集成,甚至没有测试环节,整个历程都要靠人去做这件事情,他们就像是数据管道工,更别谈最终形成你想要的AI模子。”滴普科技FastData产物治理部总司理曾这样谈到,无独占偶,《数字化转型架构:方式论和云原生》一书中也明确提及,云原生应用平台的生长将履历DevOps—DataOps—AIOps的演进路径。为此,这篇文章我们将主要探讨:

1、为什么有的数据中台不能乐成?

2、突然崛起的DataOps事实是什么?

3、追求DataOps,为什么要回归第一性原理?

01为什么有的数据中台不能乐成?

数据中台成熟后,会不会酿成类似数据客栈和数据湖一样的数据基础架构,可能是大多数人最为体贴的问题,但这对于数据中台的生长来说,实在是一件好事,缘故原由在于它把问题收窄了,回归到数据中台的产物本质上,也就是基本面问题。

和以往手艺中央件差其余是,虽然数据中台也承接底层数据和上层营业的中央层,但它的价值更多地体现在与企业营业连系的能力矩阵维度,而不是简朴地做一些数据尺度化和报表工具。以是这里就涉及到能用和洽用的问题,同时也是当下的主流问题:做一个能用的数据中台不难,但要做到好用甚至说连续好用,异常难。

在滴普科技看来,“这和海内企业数字化的历程有关,许多企业自己就有自己的一些信息系统,大多数在数字化升级时,都是基于现有基础刷新,而不是从0到1摸底建设,这对于数据智能服务商挑战极高。”背后的缘故原由很简朴,一样平常来说,传统信息系统往往确立在多个数据客栈之上,而数据中台会使用数据湖来存储,但基本问题是,支解的数据层无法对焦点营业流程举行全局还原和支持,也无法实现数据驱动的全局决媾和产物研发。

前文提到的Twitter就是最好的例子,在2011年以前,Twitter开发和宣布产物的流程异常冗长,产物司理需要到各个部门调研可以使用的数据,并协调数据的生产化问题。在数据平台推行后,Twitter整个产物的开发和迭代流程从以月计改为以周计,活跃用户数也从2011年不到1亿,增进到2014年靠近3亿。在那时Twitter大数据项目认真人看来,“这是架构上的胜利。”

同理到现在的环境也是一样,随着自助服务剖析和机械学习的迅速生长,公司里的管道数目也随着数据剖析师、数据科学家、数据工程师以及数据使用者营业部门增多而增多,问题的要害是,险些每一个都需要专门的数据集和数据接见权限才气发生内容,而协调这些工具、手艺和职员是一项伟大且花费精神的事情,稀奇是在规模重大的开发团队里,这也注释了为什么DataOps会生长起来。

溯源企业数据平台项目的失败案例,你会发现它们往往都有一些共性,好比初期启动难,得不到营业支持、很难把数据源规模化,缺少对庞大源数据系统的治理手段、数据平台项目跟不上企业创新要求以及开发和运营成本极高,无法正向反哺营业。

以往的履历告诉我们,许多时刻,一个高速生长的营业往往是由于早期架构设计的问题,变得难以迭代。以是从这个角度看,并不是数据平台的理念过时了,而是数据中台的架构过时了。由于除了确定对于营业的价值外,建设数据平台的基个性问题是手艺架构的选择和设计,但这相当于给一架高速行驶的列车替换引擎,难度系数很高。

02突然崛起的DataOps事实是什么?

前文我们提到,DataOps是硅谷公司在解决第三阶段问题时普遍接纳的方式论,同时也是数据中台建设必须参考的一个方式论,这在一定水平上证实晰DataOps的可行性。众所周知,数据智能要解决的三大问题是数据处置、模子搭建及交付,想要实现智能工程化或者大规模可连续的数据智能交付,现在业内公认的模式运维解法是ModelOps,开发运维解法是DevOps,至于数据运维,就是DataOps。

在2018年Gartner宣布的《数据治理手艺成熟度曲线》讲述中,DataOps看法被首次提出。

维基百科对DataOps的界说是一种面向流程的自动化方式,由剖析和数据团队使用,旨在提高数据剖析的质量并缩短数据剖析的周期,简而言之,就是提供一整套工具和方式论,让数据应用的开发和治理加倍高效。但Gartner也指出,DataOps虽然可以降低数据剖析的门槛,但并不会让数据剖析酿成一项简朴的事情,与DevOps的落地一样,实行乐成的数据项目也需要做大量的事情,好比深入领会数据和营业的关系、树立优越的数据使用规范等。

图:Gartner对DataOps的定位(泉源:Gartner官方)

就像前文我们所提到的,DataOps的降生并不是有时,IBM商业价值研究院曾有过一份研究:数据科学家往往需要破费大量时间准备、验证和整理数据源,然后才气使用这些数据源训练数据模子,因此他们只能用少得可怜的一点点时间,去设计用于将数据转化为价值的AI模子。据估量,AI部署历程中有80%的事情都用于准备数据。

若是从第一性原理出发,你会发现DataOps与数据中台需要解决的问题实在是相类似的,它们都希望能更快、更好地实现数据价值,实现数字化运营,但两者偏重点却有所差异。

前者强调的是数据应用的开发和运维效率提升,类似于DevOps解放了开发职员的生产力,后者强调的是数据统一治理和阻止重复造轮子,是对数据能力的抽象、共享以及复用。

上升到产物原教旨主义层面,若是说数据中台强调的是战略条理的结构,即必须有一其中台来肩负所有数据能力的治理和使用,那么,DataOps强调的就是战术维度的优化,即若何让各个开发和使用现实数据应用的职员加倍高效,换句话说,数据中台只是粗线条地形貌了最终目的,而DataOps提供了一条加倍细腻化的最佳路径。

图:DataOps架构(泉源:Diving into DataOps: The Underbelly of Modern Data Pipelines韦恩·埃克森)

固然,这和DataOps的架构有关。根据手艺层面的注释,DataOps重点放在了数据中央,为用户提供了一系列数据工具,并通过职员协作与流程管控的模式,实现连续的数据科学模子部署,这可以通俗明白成“编排”,同时也是DataOps焦点灵魂所在,由于一个好的编排工具意味着它能协调数据开发项目的4个组成部门,包罗代码,数据,手艺和基础架构。

因此,在云,DataOps是面向多云庞大部署数据处置的有用手段,也极有可能成为数据中台的生长拐点。

03追求DataOps,需要回归第一性原理

DataOps的优势显而易见,好比它能改善数据治理者和数据消费者角色之间的相同,让双方处于统一页面上;整合整个企业的数据流,并通过数据管道自动化降低运营成本;通过优越的监控,保证可靠性和可考察性。

滴普科技方面以为,“拥有更壮大的数据治理能力,是面向未来的架构要害特征。以当下主流的剖析型数据库湖仓一体为例,想要完成湖仓一体的最终建设,则一定要履历以下三个阶段:数据入湖——数据治理和质量——DataOps。”

图:DataOps开发流程(泉源:滴普科技官方)

但这并不意味着它是一副万能药。

就像前文所述,虽然DataOps可以降低数据剖析的门槛,但不会让数据剖析酿成一项简朴的事情。与DevOps相类似,DataOps的使用与生长,也是一个需要有准确工具和准确头脑加持的连续历程,它的目的是用准确的方式实现数据智能项目落地,解放数据的功效属性,形成生产力。

在数字化浪潮里,企业数据平台要想乐成落地,是双向选择和奔赴的历程,就像种一棵树,你不能头天种下了,第二天就希望它能酿成木料,而是考察它的底部事着实不在生长。

在2018年IBM和Forrester Consulting团结宣布的讲述《数字化转型的深层实质》中,数字化转型的义务由3个主要系统肩负:SoE(System of Engagement,行动系统)、SoI(System of Insight,洞察系统)以及SoR(System of Record,纪录系统)。SoR主要把系统需要的数据纪录下来,SoI认真从数据中发现洞见,而SoE认真凭证洞见来指导行动,虽然数字化转型的模子可能有多种显示方式,但你会发现,它的主要功效和建设内容照样绕不开这三个方面。

延续到客户视角来看,他们往往希望厂商能提供完整数据平台的搭建以及端到端的手艺能力,并提供相关行业的知识和洞察,但这通常会牵涉许多赛道,从数据存储、数据处置、数据整合、到数据治理、人工智能、机械学习,再到最终的BI,而这些赛道的手艺差异是很大的,以是对于数据智能服务玩家来说,需要用第一性原理思索问题:有所为,有所不为。

       原文题目 : 为什么说DataOps是数据中台的拐点?