mPLUG-DocOwl 1.5:面向无OCR文档理解的统一结构学习mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document
Understanding
结构信息对于理解文本丰富的图像(如文档、表格和图表)的语义至关重要。现有的用于视觉文档理解的多模态大型语言模型(MLLMs)具备文本识别能力,但缺乏对文本丰富的文档图像进行结构理解的能力。在这项工作中,我们强调了结构信息在视觉文档理解中的重要性,并提出了统一结构学习以提升MLLMs的性能。我们的统一结构学习包括结构感知解析任务和跨5个领域(文档、网页、表格、图表和自然图像)的多粒度文本定位任务。为了更好地编码结构信息,我们设计了一个简单而有效的视觉到文本模块H-Reducer,它不仅可以保留布局信息,还可以通过卷积合并水平相邻的补丁来减少视觉特征的长度,使LLM能够更高效地理解高分辨率图像。此外,通过构建结构感知文本序列和多粒度文本与边界框对应的公开可用文本丰富图像,我们构建了一个全面的训练集DocStruct4M来支持结构学习。最后,我们构建了一个小型但高质量的推理调优数据集DocReason25K,以触发文档领域的详细解释能力。我们的模型DocOwl 1.5在10个视觉文档理解基准上取得了最先进的性能,在5/10个基准中将7B LLM的SOTA性能提高了超过10个百分点。我们的代码、模型和数据集可在以下网址公开获取:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5。