上篇回顾 : Agentic时代,我们需要什么样的数据工程(一) | MatrixOrigin
Data-Centric AI思想渐成主流
从数据层的角度来看,新的AI浪潮带来了巨大的数据工程挑战。而从AI层的角度来看,新的主流思想也认为:AI的未来,本质上是以数据为中心的(Data-Centric)。 这一理念由人工智能领域的权威学者吴恩达(Andrew Ng)等人大力倡导,其核心思想是:在当今模型算法已高度成熟的背景下,持续、系统性地提升数据质量,远比无休止地调整模型参数,更能有效地提升AI系统的性能。传统的“以模型为中心”的范式,将数据视为静态的输入;而“以数据为中心”的范式,则将数据视为一个动态的、需要持续迭代和优化的核心资产。
这一思想在Agentic时代被赋予了前所未有的重要性。对于GenAI,低质量的数据可能导致模型产生错误的“幻觉”或带有偏见的文本。而对于需要自主行动的Agentic AI,其后果则可能是灾难性的业务决策和现实世界中的错误行动。智能体的每一次感知、每一次规划、每一次决策,都直接取决于其输入数据的质量。 因此,Agentic时代的数据工程,其灵魂不再是“如何存储和移动数据”,而是“如何构建一个能够系统性、自动化地提升数据质量的引擎”。它必须是一个能够创造“数据飞轮”的系统:将原始数据转化为高质量的AI-Ready数据,驱动智能体产生高质量的行动和交互,而这些交互本身又会产生新的、宝贵的反馈数据,反过来进一步优化和丰富数据资产。
Agentic数据工程的六大核心特点
要克服前文中出现的核心问题,仅仅对现有数据工程进行增量式的修补是远远不够的。我们亟需一套全新的数据工程哲学,它必须建立在一系列专为自主、多模态、可进化的AI世界设计的“第一性原理”之上。因此,我们认为新的Agentic数据工程需要具备六大核心特点:
特点一:架构一体化
面向Agentic时代的数据孤岛和技术复杂度,我们需要彻底摒弃那种将多种“点解决方案”粘合在一起的“缝合怪”式技术栈。面向Agentic AI的现代数据平台,必须是一个覆盖从数据接入、治理、存储到最终服务全生命周期的、高度集成的统一平台。
这种统一性从根本上解决了技术栈复杂性和能力鸿沟的问题,企业无需再投入巨大的研发力量去集成和维护十几种工具。同时,通过在单一平台内以超融合的内核统一处理交易、分析、向量和全文数据,彻底打破了因系统林立而导致的数据孤岛,确保智能体能获得全面、一致的数据视图。
特点二:多模态原生
新一代数据工程必须从设计之初就将处理和整合非结构化数据作为核心目标,非结构化数据要与其他数据一样,作为系统的一等公民,而非由一个附加功能叠加式处理。平台从数据接入的连接器,到解析逻辑,再到存储格式和查询引擎,都为原生支持文本、图像、音视频等多模态内容而优化。这直接解决了多模态数据处理加工的挑战,将过去需要为每种数据类型定制的复杂流程,转变为平台内标准、自动化的工作流,从而真正释放企业内部占比超过80%的“暗数据”的价值。
特点三:AI驱动治理
面对海量的、异构的多模态数据,传统依赖人工的数据治理方式不仅效率低下,而且在能力上存在根本瓶颈。AI驱动治理意味着将AI深度融入数据治理的每一个环节,用智能化的手段去自动化处理过去无法完成或极其耗时的任务。对于非结构化数据,传统方法难以进行有效的分类、过滤和清洗。而AI驱动的平台能够理解文档内容、识别图像场景,实现过去无法做到的精细化治理,从根本上提升了数据质量。在复杂的业务场景中,不同数据间的关联、转换和质量校验规则可能成千上万,靠人力维护是一场不可能完成的任务。AI能够自动理解、生成并执行这些复杂的治理规则,将数据工程师从繁琐的规则维护中解放出来,极大地提升了治理效率和准确性,从而确保了输入给智能体的数据是高质量且可信的。
特点四:闭环可进化
AI数据工程必须从单向的“数据管道”演进为支持双向交互的“学习系统”。其必须原生支持一个完整的、闭环的反馈链路。智能体的每一次行动、每一次与环境的交互、以及用户的每一次反馈,都应被系统性地捕获、存储和分析。这些交互数据将成为下一轮模型优化、策略调整的宝贵输入,直接弥补了传统数据工程中反馈链路缺失的根本缺陷,驱动智能体的能力在真实业务场景中持续迭代和进化。
特点五:安全可信任
安全和隐私保护必须是设计的出发点,而非附加功能。从数据接入到智能体行动的每一个环节,都必须嵌入严格、零信任的安全策略。这直接回应了数据安全管理和治理挑战中的核心风险。通过提供基于角色的细粒度权限控制(RBAC)、端到端加密、敏感数据自动发现与脱敏、以及对智能体所有操作的完整审计日志,为智能体的自主行动提供了可信、可控、合规的“安全护栏”,从根本上防止数据泄露和滥用。
特点六:弹性可扩展
新的数据工程底层架构必须是为大规模、高并发和弹性需求而设计的,从算力层,模型层,存储层到计算层均需要考虑扩展性,并根据业务负载进行独立的、动态的弹性伸缩,确保在处理PB级数据或应对高并发请求时,系统依然能保持高性能和高可用性,并帮助企业实现资源的按需使用,有效控制成本。
MatrixOne Intelligence AI原生多模态数据智能平台
面对AI智能体时代的六大核心数据挑战,矩阵起源推出了MatrixOne Intelligence——一套专为应对这些挑战而设计的一站式AI原生多模态数据智能平台。 MatrixOne Intelligence是一个高度整合的平台,旨在从根本上解决企业在落地AI智能体时的数据困境:
- 针对数据孤岛与处理复杂性,平台提供了一站式的数据接入、解析与深度理解能力,能够无缝整合并处理包括文档、音视频在内的各类异构多模态数据。
- 针对技术栈复杂与人才鸿沟,平台以超融合的数据库和一体化的工作流引擎,替代了传统方案中需要拼接的多种工具,极大地简化了技术架构,降低了开发和运维门槛。
- 针对规模化瓶颈,平台基于云原生架构设计,具备强大的弹性伸缩能力,确保从实验原型到企业级生产应用的平滑过渡。
- 针对反馈机制缺失与安全治理难题,平台内置了Agent交互数据的管理能力与全链路的权限控制及审计功能,帮助企业构建安全、可控且能够持续进化的智能体应用。 其核心目标,是将企业内部散乱、异构的原始数据,系统性地转化为可供AI智能体高效利用的高质量“AI-Ready数据”,并建立起数据反馈与模型优化的闭环,从而持续提升智能体解决复杂业务问题的能力和准确度。
平台架构介绍
如下图所示,该平台自下而上分为三个核心层次,分别是数据库及AI服务层、数据集成与治理层、数据服务层,最终服务于AI智能应用。这几个层次环环相扣,共同构建出一个面向GenAI与Agent的数据工程方案。
数据库及AI基座层
数据库及AI基座层提供了完善的数据库及AI模型能力底座。其支持结构化、半结构化及非结构化数据的融合存储与面向不同负载的高效查询能力,同时提供LLM模型、Embedding模型和各类视觉、语音模型,为数据解析、理解和智能体应用提供AI能力。
数据集成与加工层
数据集成与治理层负责从左侧的各类数据源中采集、清洗、转换数据。它通过可视化的工作流,对多模态数据进行解析、理解、增强、向量化,将原始数据加工成高质量的AI-Ready数据。
数据服务层
该层是平台与最终应用之间的智能交互桥梁。它以AI Agent的形式,对外提供统一、便捷的数据服务。该层封装了复杂的检索逻辑(如混合搜索、多路召回)和工具调用能力,将底层的数据和AI能力转化为可直接消费的智能服务,例如多模态搜索、智能问答、报告生成等。通过这层服务,上层应用开发者无需关心底层数据的复杂性,可以快速构建强大的AI智能应用。
平台组件介绍
MatrixOne Intelligence平台包含四个核心组件,它们分别对应平台架构中的不同层次,构成了完整的技术体系。这些产品通过协同工作,将数智基座、数据ETL以及数据服务能力无缝连接起来,提供了一套一站式、端到端的多模态数据智能解决方案。 接下来,我们将逐一介绍这四个核心组件,详细阐述它们在不同层次中的功能定位和独特价值,展示它们如何协作以应对企业在GenAI落地中的数据和智能挑战。
MatrixOne 超融合云原生数据库
MatrixOne是MatrixOne Intelligence平台的核心数据管理底座,旨在为企业提供一套全面的超融合数据库解决方案,以支持面向GenAI的多模态数据的高效处理。其采用存算分离与云原生架构设计,支持结构化、半结构化和非结构化数据的统一存储与查询。MatrixOne具备多模态数据融合处理能力,可同时支持事务型(OLTP)、分析型(OLAP)、向量检索、全文搜索和时序数据查询,极大地简化了企业复杂数据负载的管理需求。此外,MatrixOne具备强大的快照功能,为GenAI中快速动态变化的训练集、验证集和评估集的数据版本化提供了可靠支持。通过与MatrixGenesis及MatrixPipeline的深度集成,MatrixOne能够快速完成数据解析、深度理解、向量化,并支持高性能的多维度检索与召回。
MatrixGenesis AI模型服务
MatrixGenesis是MatrixOne Intelligence平台中的AI服务模块,专注于为企业提供大模型支持与智能应用开发能力。作为企业AI转型的核心工具,MatrixGenesis涵盖从模型训练与精调到推理部署的全生命周期管理,帮助企业将GenAI快速应用于实际业务场景。通过整合先进的大模型服务(如LLM和多模态模型)和MaaS(模型即服务)平台,MatrixGenesis支持灵活配置和扩展,适应多样化的行业需求。此外,MatrixGenesis具备强大的Agent工作流设计与开发功能,使企业能够快速构建面向特定业务场景的智能体应用。凭借高效的工作流管理工具和便捷的模型集成能力,MatrixGenesis大幅降低了企业在AI应用开发中的技术门槛,为GenAI的规模化落地提供了坚实支撑。
MatrixPipeline 多模态数据工程
MatrixPipeline是MatrixOne Intelligence平台中的数据处理与治理模块,专为企业提供多模态数据的高效接入、转换和管理能力。作为数据流的核心引擎,MatrixPipeline支持从结构化、半结构化到非结构化数据的统一接入,通过灵活的连接器与自动化ETL流程,帮助企业轻松整合多源数据。其内置的预处理与解析功能能够针对不同数据格式(如PDF、Word、JPEG、视频、音频等)进行智能解析、内容抽取和特征工程,为后续模型训练和推理提供高质量的数据支持。此外,MatrixPipeline还具备数据清洗、增强和标注能力,结合大模型提供的嵌入式标注与自动化特征生成功能,大幅提升数据治理的效率与准确性。通过与MatrixOne数据库的深度集成,MatrixPipeline可以实现无缝的数据流管理,支持高效的数据版本管理和全生命周期追踪。作为企业数据智能化的基础模块,MatrixPipeline简化了复杂的数据管道构建流程,显著降低了多模态数据治理的技术门槛。
MatrixCopilot 数据服务助手
MatrixCopilot是MatrixOne Intelligence平台的数据服务助手,它并非一个简单的API层,而是一个革命性的AI原生数据助手。用户可以通过自然语言与MatrixCopilot进行交互,下达复杂的数据任务,例如“帮我整合所有渠道的用户反馈,并分析出TOP 5的产品抱怨点”。MatrixCopilot会自主地理解用户意图,自动规划并构建底层的MatrixPipeline数据处理工作流,调用MatrixGenesis的AI能力进行分析,并最终交付结构化的数据结果。最关键的是,这个过程是完全透明和可优化的。如果用户对结果不满意,可以直接通过对话反馈,MatrixCopilot会根据反馈智能地调整和优化其构建的工作流,重新执行并交付更精准的结果,形成一个强大的交互式闭环。