1. 解析模型
1.1 解析模型(Parsing Model) & MOI
解析模型是指用于从复杂文档(如 PDF、扫描图、报告等)中识别结构要素(如标题、段落、表格、图像等)并提取其内容模型。在MatrixOne Intelligence(下文简称MOI)产品中,采用了 MinerU (mineru.readthedocs.io),一个开源的将PDF转化为markdown 解析工具。
MinerU 用于解析PDF,主要的解析流程如下:
- 扫描识别:判断 PDF 是否为扫描件,自动触发 OCR
- 布局分析:用多模型组合检测标题、段落、图表、公式等区域
- 内容识别:OCR 识别文本;公式识别为 LaTeX;表格识别为结构化数据
- 清洗输出:去除页眉页脚、调整自然阅读顺序,导出 Markdown 或 JSON 格式
1.2 MinerU 模型组合与原理
下面是 MinerU系列在 MOI 中的主要模型组合架构表格
子任务 | 默认模型 | 作用 |
---|---|---|
版面分析 | PDF-Extract-Kit + DocLayout-YOLO | 划分段落、表格、公式、图片 |
OCR | PaddleOCR / RapidOCR | 识别文字,支持80+语种 |
表格结构 | RapidTable / StructTable-InternVL2-1B | 表格解析模型,能够解析行列、合并单元格 |
公式识别 | UniMERNet | 将公式转 LaTeX |
图像抽取 | 内置 CV 算法 | 裁剪并标注坐标 |
其中不难看出两个比较重要的模块——版面分析和OCR,是MinerU实现文档解析的核心。接下来我们详细介绍这两个模块的原理。
1.2.1 版面分析 (Layout Analysis)
版面分析的目标是在文档图像中准确地定位不同类型的区域,例如段落、标题、表格和图片。MinerU 中使用的 DocLayout-YOLO 是基于YOLO目标检测框架进行优化的。其将版面分析任务视为一个计算机视觉中的对象检测问题。模型将整个文档页面作为输入图像,并学习直接预测出代表不同版面元素(如文本块、表格)的边界框(Bounding Box)和类别。
相比于通用物体检测,DocLayout-YOLO 针对文档的特性进行了专门优化:
- 多样化数据预训练: 在大规模、多样化的合成文档数据集(
DocSynth-300K
)上进行预训练,使其能更好地泛化到现实世界中各种复杂的文档布局。 - 全局到局部的感受野: 引入了 GL-CRM (Global-to-Local Controllable Receptive Module) 模块,使模型能够灵活地调整其"视野",从而有效处理从单行标题到整页表格等不同尺度的版面元素。
简而言之,版面分析就是应用并改造强大的图像目标检测技术,使其专门用于快速、准确地识别文档的结构。
1.2.2 OCR (Optical Character Recognition)
OCR 的目标是将图像中的文字转换为机器可读的文本格式。MinerU 中使用的 PaddleOCR 是一个典型的多阶段 OCR 系统,其核心原理如下:
文本检测 (Text Detection): 首先,需要一个模型来确定图像中文字的位置。这个模型会输出包含文字区域的边界框。PaddleOCR 通常使用 DB (Differentiable Binarization) 算法来完成这个步骤。
文本识别 (Text Recognition): 在检测到文本区域后,每个包含文本的图像块会被裁剪出来,并送入一个识别模型中进行"阅读"。目前主流的识别模型是 CRNN (Convolutional Recurrent Neural Network),它包含三个关键部分:
- CNN (Convolutional Neural Network): 卷积神经网络作为特征提取器,从输入的文本行图像中提取丰富的视觉特征序列。
- RNN (Recurrent Neural Network): 通常使用双向 LSTM,用于处理 CNN 提取出的特征序列。RNN 擅长处理序列数据,能够学习到字符之间的上下文依赖关系。
- CTC (Connectionist Temporal Classification): RNN 的输出是每个特征步长上所有字符的概率分布,CTC 算法能够智能地将这个概率序列解码为最终的文本字符串。简而言之,就是将RNN的输出序列转换为最终的文本字符串。
这套组合的优势在于模块化、灵活控制与高准确率。但也存在缺点:
- 依赖多个子模型:像OCR模型本身不是一个端到端的模型,而是由文本检测和文本识别两个子模型组成。再加上版面分析模型和一系列的表格、公式、图像识别模型,整体逻辑复杂,模型切换、接口对接逻辑稍复杂
- 工程化实现逻辑复杂:需要对接调整每一个子模型,并且需要对每一个子模型进行优化和调整,以达到最优的性能。
- 模型并发难及效率低:由于模型之间存在依赖关系,无法并行处理,导致效率低下。
1.3 业界前沿思路
1.3.1 端到端解析模型
AllenAI olmOCR: olmOCR (arxiv.org)是第一个利用了VLM (Vision-Language Model) 模型进行SFT (Supervised Fine-Tuning) 解析的开源模型,端到端地将PDF转化为markdown。其主要特点如下:
- 收集并标注了一批高质量的PDF,利用微调后的 7B Vision-Language Model,提取 PDF 结构顺序、表格、公式、手写体
- 支持自然阅读顺序输出 Markdown,成本低至每百万页约 200 美元
- 属于端到端 VLM 推理,无需多模型管道切换,但需要大量的标注数据。
ByteDance Dolphin: Dolphin (arxiv.org) 是字节跳动提出的一个端到端的解析模型。其不仅仅是微调现有的VLM模型,而是重构了整个模型架构,并提出了先解析结构后解析内容(analyze‑then‑parse)的架构。其主要特点如下:
- 首先进行整页布局分析,生成结构 anchor 顺序
- 然后并行解析各 anchor 组成内容,支持段落/表格/图片/公式等
1.3.2 优势和劣势
相比起传统的layout+OCR pipeline,端到端解析模型具有以下优势:
- 利用大模型强大的Multi-task能力,一个模型完成所有任务,无需多模型管道切换
- 由于是单模型,方便推理加速,能够实现更多的并发
但也有劣势:
- 数据依赖性强: 模型效果高度依赖于微调所用的标注数据,高质量的数据集构建成本高昂。
- 可控性与可解释性差: 端到端模型如同一个"黑箱",当特定类型的解析(如表格)出错时,难以像模块化流程那样进行针对性的调试和优化。
- 计算资源要求高: 微调或部署大型 VLM 模型需要巨大的计算资源,对于多数团队来说门槛较高。
1.4 趋势:
- 总体趋势是从 layout+OCR pipeline到对VLM进行SFT (Supervised Fine-Tuning),再到解析型 LLM 架构
- 现阶段趋势:结合 layout 分析 + OCR pipeline。典型流程:先用专属 layout 检测模型,再交由 OCR 与结构解析模型处理。这种方式在 MOI(MinerU)中仍是主力,精度高控制性强。
- 未来方向:全面过渡到 VLM / LLM 架构(如 olmOCR, Dolphin)。如 olmOCR, Dolphin,甚至即将兴起的如 MonkeyOCR(路径 SRR Triplet 模型),它们利用llm的能力,实现布局、内容、关系的统一处理。
2. 微调(SFT)
接下来简单介绍一下如何微调llm,以适用于文档解析任务。
SFT (Supervised Fine-Tuning) 即监督微调,是让已经预训练好的大模型"学会"特定任务或特定"说话风格"的核心技术。其原理很简单:就像教学生做特定类型的应用题一样,我们给模型提供一批高质量的"问题-标准答案"对(即标注好的数据集),然后让模型根据这些范例来调整自己的内部参数,使其输出越来越接近我们提供的"标准答案"。
在前文提到的文档解析任务中,这个"问题-标准答案"对就是"一篇PDF文档"和"它对应的完美Markdown格式文本"。
2.1 结合解析模型的大模型微调方法
数据准备完成之后,就可以开始进行SFT了。下面是两种比较常用的微调策略:
2.1.1 全参量微调 (Full-parameter Fine-tuning)
这是最直接的方式。顾名思义,它会更新模型中所有的参数(几亿到几百亿个)。
- 原理: 将整个预训练模型放在新的任务数据上继续训练,不冻结任何权重。
- 优劣: 效果潜力最大,能让模型最充分地适应新任务。但缺点也极其明显:计算资源消耗巨大(需要大量高端GPU,如A100、H100等)、训练时间长,且容易产生灾难性遗忘(Catastrophic Forgetting)——模型为了学习新知识而忘记了部分通用能力。对于文档解析,全量微调一个大型VLM模型来输出Markdown,成本和门槛都非常高。
2.1.2 LoRA微调 (Low-Rank Adaptation)
LoRA 是一种高效参数微调(PEFT, Parameter-Efficient Fine-Tuning)技术的杰出代表。它巧妙地解决了全参量微调的痛点。
- 原理: LoRA的核心思想是"大模型本身已经足够强大,我们只需微调一小部分参数来引导它"。它冻结预训练模型的全部原始参数,然后在模型的关键部分(如Transformer的注意力层)旁边注入两个小型的、可训练的"旁路"矩阵(低秩矩阵)。微调时,只更新这两个小矩阵的参数。在推理时,可以将这两个小矩阵的乘积与原始参数矩阵相加,不引入任何额外的延迟。
- 优劣: 训练参数量极少(可能只有总参数的0.01%),显著降低了显存占用和训练成本,通常使用消费级显卡(如RTX 4090)就可以实现LoRA微调。可以为不同任务训练不同的LoRA模块,灵活切换,非常适合在同一个基础模型上适配多种解析需求(如简历解析、财报解析等)。其效果通常能逼近全参量微調的90%以上,是一种性价比极高的方案。
2.2 SFT总结
总的来说,SFT 是将通用大模型(如VLM)特化为专业文档解析模型的关键步骤。在实践中,LoRA 因其高效、低成本和灵活性,已成为当前微调任务的主流选择;而全参量微调则更像是一种保留选项,用于资源充足且对模型性能有极致追求的场景。