ChatPaper.aiChatPaper

DocLLM: Генеративная языковая модель с учетом структуры для мультимодального понимания документов

DocLLM: A layout-aware generative language model for multimodal document understanding

December 31, 2023
Авторы: Dongsheng Wang, Natraj Raman, Mathieu Sibue, Zhiqiang Ma, Petr Babkin, Simerjot Kaur, Yulong Pei, Armineh Nourbakhsh, Xiaomo Liu
cs.AI

Аннотация

Корпоративные документы, такие как формы, счета, квитанции, отчеты, контракты и другие подобные записи, часто содержат богатую семантику на пересечении текстовых и пространственных модальностей. Визуальные подсказки, предоставляемые их сложной структурой, играют ключевую роль в эффективном понимании этих документов. В данной статье мы представляем DocLLM — легковесное расширение традиционных больших языковых моделей (LLM) для анализа визуальных документов, учитывающее как текстовую семантику, так и пространственную структуру. Наша модель отличается от существующих мультимодальных LLM тем, что избегает использования ресурсоемких кодировщиков изображений и сосредоточена исключительно на информации о граничных рамках для включения структуры пространственного расположения. В частности, перекрестное согласование между текстовыми и пространственными модальностями достигается за счет декомпозиции механизма внимания в классических трансформерах на набор разъединенных матриц. Кроме того, мы разработали цель предварительного обучения, которая учится заполнять текстовые сегменты. Этот подход позволяет нам работать с нерегулярными структурами и разнородным контентом, часто встречающимися в визуальных документах. Предварительно обученная модель дорабатывается с использованием крупномасштабного набора данных с инструкциями, охватывающего четыре основные задачи интеллектуальной обработки документов. Мы показываем, что наше решение превосходит современные LLM на 14 из 16 наборов данных по всем задачам и хорошо обобщается на 4 из 5 ранее не встречавшихся наборов данных.
English
Enterprise documents such as forms, invoices, receipts, reports, contracts, and other similar records, often carry rich semantics at the intersection of textual and spatial modalities. The visual cues offered by their complex layouts play a crucial role in comprehending these documents effectively. In this paper, we present DocLLM, a lightweight extension to traditional large language models (LLMs) for reasoning over visual documents, taking into account both textual semantics and spatial layout. Our model differs from existing multimodal LLMs by avoiding expensive image encoders and focuses exclusively on bounding box information to incorporate the spatial layout structure. Specifically, the cross-alignment between text and spatial modalities is captured by decomposing the attention mechanism in classical transformers to a set of disentangled matrices. Furthermore, we devise a pre-training objective that learns to infill text segments. This approach allows us to address irregular layouts and heterogeneous content frequently encountered in visual documents. The pre-trained model is fine-tuned using a large-scale instruction dataset, covering four core document intelligence tasks. We demonstrate that our solution outperforms SotA LLMs on 14 out of 16 datasets across all tasks, and generalizes well to 4 out of 5 previously unseen datasets.
PDF18825December 15, 2024