ChatPaper.aiChatPaper

Hacia la Fundamentación Visual de Texto en Modelos de Lenguaje Multimodales de Gran Escala

Towards Visual Text Grounding of Multimodal Large Language Model

April 7, 2025
Autores: Ming Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun
cs.AI

Resumen

A pesar de la evolución existente de los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs), persiste una limitación no despreciable en su dificultad para la fundamentación de texto visual, especialmente en imágenes ricas en texto de documentos. Las imágenes de documentos, como formularios escaneados e infografías, resaltan desafíos críticos debido a sus diseños complejos y contenido textual. Sin embargo, los puntos de referencia actuales no abordan completamente estos desafíos, ya que se centran principalmente en la fundamentación visual en imágenes naturales, en lugar de imágenes de documentos ricas en texto. Por lo tanto, para cerrar esta brecha, presentamos TRIG, una tarea novedosa con un conjunto de datos de instrucciones recién diseñado para evaluar y mejorar las capacidades de Fundamentación de Imágenes Ricas en Texto (TRIG) de los MLLMs en la respuesta a preguntas sobre documentos. Específicamente, proponemos una canalización de interacción OCR-LLM-humano para crear 800 pares de preguntas-respuestas anotados manualmente como punto de referencia y un conjunto de entrenamiento a gran escala de 90$ datos sintéticos basados en cuatro conjuntos de datos diversos. Una evaluación exhaustiva de varios MLLMs en nuestro punto de referencia propuesto expone limitaciones sustanciales en su capacidad de fundamentación en imágenes ricas en texto. Además, proponemos dos métodos TRIG simples y efectivos basados en ajuste de instrucciones generales y en incrustaciones eficientes plug-and-play, respectivamente. Al ajustar finamente los MLLMs en nuestro conjunto de datos sintético, mejoran prometedoramente las capacidades de razonamiento espacial y fundamentación.
English
Despite the existing evolution of Multimodal Large Language Models (MLLMs), a non-neglectable limitation remains in their struggle with visual text grounding, especially in text-rich images of documents. Document images, such as scanned forms and infographics, highlight critical challenges due to their complex layouts and textual content. However, current benchmarks do not fully address these challenges, as they mostly focus on visual grounding on natural images, rather than text-rich document images. Thus, to bridge this gap, we introduce TRIG, a novel task with a newly designed instruction dataset for benchmarking and improving the Text-Rich Image Grounding capabilities of MLLMs in document question-answering. Specifically, we propose an OCR-LLM-human interaction pipeline to create 800 manually annotated question-answer pairs as a benchmark and a large-scale training set of 90$ synthetic data based on four diverse datasets. A comprehensive evaluation of various MLLMs on our proposed benchmark exposes substantial limitations in their grounding capability on text-rich images. In addition, we propose two simple and effective TRIG methods based on general instruction tuning and plug-and-play efficient embedding, respectively. By finetuning MLLMs on our synthetic dataset, they promisingly improve spatial reasoning and grounding capabilities.

Summary

AI-Generated Summary

PDF162April 11, 2025