本报记者 秦枭 北京报道
在AI技术狂飙突进的今天,数据治理作为“AI的地基”,其重要性愈加凸显。如果没有可信且准确的数据,即使是最先进的算法也难以发挥作用。就像坚实的地基支撑起大厦,可靠的数据是AI模型提供准确预测和做出明智决策的基础。缺乏可靠数据,无论AI模型多么高效节能,都会像纸牌屋一样崩塌,无法为企业创造价值。
然而,企业普遍面临数据孤岛、质量参差、硬件利用率低等问题。因此,如何突破数据治理瓶颈成为行业关注的焦点。Cloudera大中华区技术总监刘隶放近日在接受《中国经营报》记者采访时,围绕数据治理技术难点、企业核心竞争力、开源与闭源趋势、AI模型效能提升等话题,分享了其实践经验与行业洞察。

数据治理的破局之道
在人工智能快速发展的当下,数据作为AI的核心生产要素,其治理水平直接影响着AI应用的成效。
《中国经营报》:“可靠数据是AI的地基”,但当前企业普遍面临数据孤岛、质量参差等问题。从技术角度分析,行业在数据治理方面面临的最大瓶颈是什么?
刘隶放:数据治理的核心挑战源于企业对数据价值的认知偏差。许多企业将数据视为“静态资产”,而非动态资源。例如,传统数据仓库模式下,数据经过层层清洗、建模后形成报表,看似“干净”,却难以支撑实时分析和AI训练。这就像用“老图纸”建“新大楼”,必然导致资源浪费和效率低下。
更深层的问题在于,企业往往缺乏统一的数据管理策略。以金融行业为例,银行的客户数据可能分散在信贷、理财、支付等多个系统中,每个系统都有独立的数据管理方式。这种“烟囱式”架构不仅导致数据孤岛,还使得数据溯源和质量管控变得异常复杂。
《中国经营报》:包括DeepSeek和一体机等智能体,AI正越来越多地走进我们的工作、生活以及企业的生产过程中。那么,Cloudera如何通过数据治理来提升AI模型的效能?
刘隶放:数据治理在AI时代需要实现三个转变:从“数据可用”到“数据可信”,从“静态管理”到“动态监控”,从“单点优化”到“全链条协同”。
假设我是一个传统数据科学家,随着AI领域的发展,很多人很容易转型为AI专家。在以往的体系中,我们常说“一人一机一卡”,但真正进入企业应用时,并不再是传统的单一模式,而会演变成“多人、多机、多卡”的情景。
在中小规模团队中,面对面协作尚可通过人际沟通协调资源,但当企业研发规模扩大,技术栈的统一管理与资源高效调配便成为核心挑战。
一是模型全生命周期管理。企业普遍基于开源模型进行二次训练,需建立标准化版本控制机制。每一次数据处理逻辑调整、算法参数优化或数据集迭代,都需通过中心化平台记录操作痕迹,支持版本回溯与性能比对。这种机制不仅确保研发过程可复现,更实现技术资产的沉淀。
二是数据处理。基于底层数据,构建安全隐私保护环境,做好数据完整性、隐私及清洗保障,在外包场景下确保数据安全管理。
三是数据溯源。其是数据治理的关键一环,可追溯数据来源和生成过程,应对业务部门质疑。
多年来我们一直致力于从原数据管理到数据溯源,再到全链条的数据管理。这样不仅能帮助客户进行用户身份验证和安全控制,还能在数据领域中为原数据管理提供坚实支撑。
构建开放可控的企业级AI体系
市场竞争日益激烈,企业为了提升竞争力,需要不断寻找新的增长点和优化业务的方法。AI作为一种能够提高效率、创新产品和服务、优化决策的技术,成为企业关注的焦点。企业意识到如果不积极应用AI,可能会在竞争中落后,因此开始思考如何利用AI来提升自身的竞争力。
《中国经营报》:DeepSeek掀起了开源技术热潮,如何看待开源与闭源的竞争关系?未来会形成怎样的技术生态?
刘隶放:我们长期以来秉承的Cloudera理念认为,开源无疑能促进更快和更多的创新。
开源确实加速了技术创新,尤其是AI领域,DeepSeek的开源让更多企业能够低成本使用大模型。但大模型训练需要巨大的硬件投入,个体开发者难以承担,这推动了闭源体系在专有算法领域的发展。目前我们也看到,许多人在销售宣称可在单机上运行DeepSeek的解决方案;虽然模型训练阶段需要大量设备,但训练完成后,模型可以在较小设备上运行,从而对闭源体系形成了挑战。
从企业角度而言,大家现在都能够调用开源模型,使得企业用户在这种竞争中受益。我们期望通过不断的竞争推动技术发展,未来可能形成一种混合模式:在核心算法方面闭源体系具备一定优势,而在用户案例开发方面开源体系则可能处于领先地位,这两者结合或将成为未来的主流模式,从而进一步推动技术持续延伸。
《中国经营报》:是否所有企业都有必要铺设自己的专业模型?
刘隶放:这个问题在年前还只是一个讨论话题,而年后就转变成“如何执行”的问题。去年虽然大语言模型非常火,很多客户在考虑这件事,但实际上很难说服部分领导决策,有的领导依然持观望态度。我感觉过完年后问题不再是“为什么要做”,而是“做什么”和“如何做”。现在国内客户相对务实,他们关注的是自己能否参与,能做哪些应用。
对于企业而言,我们通常会从内部落地的角度考虑,选取那些可以快速见效、产出高效益的场景。有些场景不需要投入过多的物力和人力。花钱买硬件和软件都还好,可是招聘几个数据科学家或AI专家却不容易。在这种情形下,我们要寻找可以让客户迅速见效并获得收益的AI场景。
只要在企业内部搭建一个平台,把相应的知识库数据输入进去,利用多种训练方式,例如用增强式检索、RAG训练等,就能形成问答机器人或流程管理、文件处理等应用。这不像微调那样需要大量的人力或者专家,只需很少的人力,依靠企业已有数据,加上提示词工程及其他辅助调整,就可以得到符合企业运营需求的结果。
《中国经营报》:Cloudera能为企业定制化大模型提供哪些帮助?
刘隶放:Cloudera可以为客户提供的是工具层面的能力。我们合作的客户大多规模较大,存在协同开发需求,在这种情况下,他们需要实现统一的开发环境,客户需要一个能够支持企业内部协同开发的统一平台,我们的方案基于可扩展的K8s技术,为企业提供统一化的开发环境。还需要一个专用AI模型管理器,我们提供专有的AI模型管理平台,帮助企业内部统一管理引入的开源模型以及在此基础上不断优化形成的专有模型,确保整个开发流程和模型迭代都有据可查。最后是需要AI推理及部署平台,随着AI推理日益流行,我们的工具还能介入并借助推理服务,实现模型最后部署的高效性。
另外,我们还有专业服务团队协助客户实施方案。通过与国内外众多客户的交流,我们可以借鉴彼此的经验,帮助客户根据自身环境制定合理的方案。此外,我们平台支持多种方式构建最终模型,通过增强式检索、提示工程以及微调等方法,不仅帮助客户产生模拟训练数据,还可以在前期通过访谈了解客户现有的数据和人力能力,进一步制定量身定制的解决方案。
数据治理是AI时代的核心基础设施,Cloudera通过技术创新与行业实践,帮助企业破解数据孤岛、质量参差等难题,构建开放可控的AI体系。在开源与闭源的竞合中,Cloudera以企业级服务能力形成技术护城河,推动数据治理从“管控”走向“赋能”。随着技术趋势的演进,数据治理将更智能化、平民化,成为企业释放数据价值、提升竞争力的关键引擎。
(编辑:张靖超 审核:李正豪 校对:颜京宁)
相关文章:
经开区企业快讯丨西开有限荣获2024年度中国智能制造最佳实践奖04-18
深圳出台直播电商基地及园区认定新规04-18
800亿湖南女首富,撕掉果链标签04-18
黄仁勋再次到访北京;淘宝在16个国家App下载榜登顶;刘亦菲车企发布会门票被炒至上千元|大公司动态04-18
广期所“四周年”成绩单:护航新能源产业稳健发展,书写期货市场服务绿色发展新篇章04-18
城厢:提供千余个岗位,助力高校毕业生就业04-17