ChatPaper.aiChatPaper

Vers la localisation visuelle de texte dans les modèles de langage multimodaux de grande échelle

Towards Visual Text Grounding of Multimodal Large Language Model

April 7, 2025
Auteurs: Ming Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun
cs.AI

Résumé

Malgré l'évolution actuelle des Modèles de Langage Multimodaux de Grande Taille (MLLMs), une limitation non négligeable persiste dans leur difficulté à ancrer visuellement le texte, en particulier dans les images riches en texte de documents. Les images de documents, telles que les formulaires scannés et les infographies, mettent en lumière des défis critiques en raison de leurs mises en page complexes et de leur contenu textuel. Cependant, les benchmarks actuels ne traitent pas pleinement ces défis, car ils se concentrent principalement sur l'ancrage visuel dans les images naturelles plutôt que dans les images de documents riches en texte. Ainsi, pour combler cette lacune, nous introduisons TRIG, une nouvelle tâche accompagnée d'un ensemble d'instructions nouvellement conçu pour évaluer et améliorer les capacités d'ancrage d'images riches en texte des MLLMs dans le cadre de questions-réponses sur des documents. Plus précisément, nous proposons un pipeline d'interaction OCR-LLM-humain pour créer 800 paires de questions-réponses annotées manuellement comme benchmark et un ensemble d'entraînement à grande échelle de 90$ de données synthétiques basées sur quatre ensembles de données diversifiés. Une évaluation approfondie de divers MLLMs sur notre benchmark proposé révèle des limitations substantielles dans leur capacité d'ancrage sur des images riches en texte. De plus, nous proposons deux méthodes TRIG simples et efficaces basées respectivement sur un réglage d'instructions général et un encastrement efficace plug-and-play. En affinant les MLLMs sur notre ensemble de données synthétiques, ils améliorent de manière prometteuse leurs capacités de raisonnement spatial et d'ancrage.
English
Despite the existing evolution of Multimodal Large Language Models (MLLMs), a non-neglectable limitation remains in their struggle with visual text grounding, especially in text-rich images of documents. Document images, such as scanned forms and infographics, highlight critical challenges due to their complex layouts and textual content. However, current benchmarks do not fully address these challenges, as they mostly focus on visual grounding on natural images, rather than text-rich document images. Thus, to bridge this gap, we introduce TRIG, a novel task with a newly designed instruction dataset for benchmarking and improving the Text-Rich Image Grounding capabilities of MLLMs in document question-answering. Specifically, we propose an OCR-LLM-human interaction pipeline to create 800 manually annotated question-answer pairs as a benchmark and a large-scale training set of 90$ synthetic data based on four diverse datasets. A comprehensive evaluation of various MLLMs on our proposed benchmark exposes substantial limitations in their grounding capability on text-rich images. In addition, we propose two simple and effective TRIG methods based on general instruction tuning and plug-and-play efficient embedding, respectively. By finetuning MLLMs on our synthetic dataset, they promisingly improve spatial reasoning and grounding capabilities.

Summary

AI-Generated Summary

PDF162April 11, 2025