К визуальному закреплению текста в мультимодальных больших языковых моделях
Towards Visual Text Grounding of Multimodal Large Language Model
April 7, 2025
Авторы: Ming Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun
cs.AI
Аннотация
Несмотря на существующую эволюцию мультимодальных больших языковых моделей (MLLMs), сохраняется значительное ограничение в их способности к визуальному текстовому заземлению, особенно в изображениях документов, насыщенных текстом. Изображения документов, такие как отсканированные формы и инфографики, подчеркивают ключевые сложности из-за их сложной структуры и текстового содержания. Однако текущие эталонные тесты не полностью охватывают эти сложности, поскольку в основном сосредоточены на визуальном заземлении в естественных изображениях, а не в текстонасыщенных изображениях документов. Чтобы устранить этот пробел, мы представляем TRIG — новую задачу с вновь разработанным набором инструкций для тестирования и улучшения способностей MLLMs к заземлению текстонасыщенных изображений в задачах вопросно-ответной работы с документами. В частности, мы предлагаем конвейер взаимодействия OCR-LLM-человек для создания 800 вручную аннотированных вопросно-ответных пар в качестве эталона и крупномасштабного обучающего набора из 90 синтетических данных, основанных на четырех разнообразных наборах данных. Комплексная оценка различных MLLMs на нашем предложенном эталоне выявляет существенные ограничения в их способности к заземлению на текстонасыщенных изображениях. Кроме того, мы предлагаем два простых и эффективных метода TRIG, основанных на общей настройке инструкций и подключаемых эффективных встраиваниях соответственно. Благодаря тонкой настройке MLLMs на нашем синтетическом наборе данных, они демонстрируют многообещающее улучшение способностей к пространственному рассуждению и заземлению.
English
Despite the existing evolution of Multimodal Large Language Models (MLLMs), a
non-neglectable limitation remains in their struggle with visual text
grounding, especially in text-rich images of documents. Document images, such
as scanned forms and infographics, highlight critical challenges due to their
complex layouts and textual content. However, current benchmarks do not fully
address these challenges, as they mostly focus on visual grounding on natural
images, rather than text-rich document images. Thus, to bridge this gap, we
introduce TRIG, a novel task with a newly designed instruction dataset for
benchmarking and improving the Text-Rich Image Grounding capabilities of MLLMs
in document question-answering. Specifically, we propose an OCR-LLM-human
interaction pipeline to create 800 manually annotated question-answer pairs as
a benchmark and a large-scale training set of 90$ synthetic data based on four
diverse datasets. A comprehensive evaluation of various MLLMs on our proposed
benchmark exposes substantial limitations in their grounding capability on
text-rich images. In addition, we propose two simple and effective TRIG methods
based on general instruction tuning and plug-and-play efficient embedding,
respectively. By finetuning MLLMs on our synthetic dataset, they promisingly
improve spatial reasoning and grounding capabilities.Summary
AI-Generated Summary