Em Direção à Ancoragem Visual de Texto em Modelos de Linguagem Multimodais de Grande Escala
Towards Visual Text Grounding of Multimodal Large Language Model
April 7, 2025
Autores: Ming Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun
cs.AI
Resumo
Apesar da evolução existente dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs), uma limitação não negligenciável persiste em sua dificuldade com o enraizamento de texto visual, especialmente em imagens ricas em texto de documentos. Imagens de documentos, como formulários digitalizados e infográficos, destacam desafios críticos devido aos seus layouts complexos e conteúdo textual. No entanto, os benchmarks atuais não abordam totalmente esses desafios, pois se concentram principalmente no enraizamento visual em imagens naturais, em vez de imagens de documentos ricas em texto. Assim, para preencher essa lacuna, introduzimos o TRIG, uma nova tarefa com um conjunto de dados de instruções recém-projetado para avaliar e melhorar as capacidades de Enraizamento de Imagens Ricas em Texto (TRIG) dos MLLMs em questionários de documentos. Especificamente, propomos um pipeline de interação OCR-LLM-humano para criar 800 pares de perguntas e respostas anotados manualmente como um benchmark e um conjunto de treinamento em larga escala de 90% de dados sintéticos baseados em quatro conjuntos de dados diversos. Uma avaliação abrangente de vários MLLMs em nosso benchmark proposto expõe limitações substanciais em sua capacidade de enraizamento em imagens ricas em texto. Além disso, propomos dois métodos TRIG simples e eficazes, baseados respectivamente em ajuste fino de instruções gerais e incorporação eficiente plug-and-play. Ao ajustar finamente os MLLMs em nosso conjunto de dados sintético, eles melhoram promissoramente as capacidades de raciocínio espacial e enraizamento.
English
Despite the existing evolution of Multimodal Large Language Models (MLLMs), a
non-neglectable limitation remains in their struggle with visual text
grounding, especially in text-rich images of documents. Document images, such
as scanned forms and infographics, highlight critical challenges due to their
complex layouts and textual content. However, current benchmarks do not fully
address these challenges, as they mostly focus on visual grounding on natural
images, rather than text-rich document images. Thus, to bridge this gap, we
introduce TRIG, a novel task with a newly designed instruction dataset for
benchmarking and improving the Text-Rich Image Grounding capabilities of MLLMs
in document question-answering. Specifically, we propose an OCR-LLM-human
interaction pipeline to create 800 manually annotated question-answer pairs as
a benchmark and a large-scale training set of 90$ synthetic data based on four
diverse datasets. A comprehensive evaluation of various MLLMs on our proposed
benchmark exposes substantial limitations in their grounding capability on
text-rich images. In addition, we propose two simple and effective TRIG methods
based on general instruction tuning and plug-and-play efficient embedding,
respectively. By finetuning MLLMs on our synthetic dataset, they promisingly
improve spatial reasoning and grounding capabilities.Summary
AI-Generated Summary