Em Direção à Ancoragem Visual de Texto em Modelos de Linguagem Multimodais de Grande Escala

Resumo

Apesar da evolução existente dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs), uma limitação não negligenciável persiste em sua dificuldade com o enraizamento de texto visual, especialmente em imagens ricas em texto de documentos. Imagens de documentos, como formulários digitalizados e infográficos, destacam desafios críticos devido aos seus layouts complexos e conteúdo textual. No entanto, os benchmarks atuais não abordam totalmente esses desafios, pois se concentram principalmente no enraizamento visual em imagens naturais, em vez de imagens de documentos ricas em texto. Assim, para preencher essa lacuna, introduzimos o TRIG, uma nova tarefa com um conjunto de dados de instruções recém-projetado para avaliar e melhorar as capacidades de Enraizamento de Imagens Ricas em Texto (TRIG) dos MLLMs em questionários de documentos. Especificamente, propomos um pipeline de interação OCR-LLM-humano para criar 800 pares de perguntas e respostas anotados manualmente como um benchmark e um conjunto de treinamento em larga escala de 90% de dados sintéticos baseados em quatro conjuntos de dados diversos. Uma avaliação abrangente de vários MLLMs em nosso benchmark proposto expõe limitações substanciais em sua capacidade de enraizamento em imagens ricas em texto. Além disso, propomos dois métodos TRIG simples e eficazes, baseados respectivamente em ajuste fino de instruções gerais e incorporação eficiente plug-and-play. Ao ajustar finamente os MLLMs em nosso conjunto de dados sintético, eles melhoram promissoramente as capacidades de raciocínio espacial e enraizamento.

English

Despite the existing evolution of Multimodal Large Language Models (MLLMs), a non-neglectable limitation remains in their struggle with visual text grounding, especially in text-rich images of documents. Document images, such as scanned forms and infographics, highlight critical challenges due to their complex layouts and textual content. However, current benchmarks do not fully address these challenges, as they mostly focus on visual grounding on natural images, rather than text-rich document images. Thus, to bridge this gap, we introduce TRIG, a novel task with a newly designed instruction dataset for benchmarking and improving the Text-Rich Image Grounding capabilities of MLLMs in document question-answering. Specifically, we propose an OCR-LLM-human interaction pipeline to create 800 manually annotated question-answer pairs as a benchmark and a large-scale training set of 90$ synthetic data based on four diverse datasets. A comprehensive evaluation of various MLLMs on our proposed benchmark exposes substantial limitations in their grounding capability on text-rich images. In addition, we propose two simple and effective TRIG methods based on general instruction tuning and plug-and-play efficient embedding, respectively. By finetuning MLLMs on our synthetic dataset, they promisingly improve spatial reasoning and grounding capabilities.

Em Direção à Ancoragem Visual de Texto em Modelos de Linguagem Multimodais de Grande Escala

Towards Visual Text Grounding of Multimodal Large Language Model

Resumo

Summary

Support

Support