ChatPaper.aiChatPaper

Zur visuellen Textverankerung von multimodalen großen Sprachmodellen

Towards Visual Text Grounding of Multimodal Large Language Model

April 7, 2025
Autoren: Ming Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun
cs.AI

Zusammenfassung

Trotz der bestehenden Weiterentwicklung von Multimodalen Großen Sprachmodellen (MLLMs) bleibt eine nicht zu vernachlässigende Einschränkung in ihrer Fähigkeit zur visuellen Textverankerung, insbesondere bei textreichen Bildern von Dokumenten. Dokumentbilder, wie gescannte Formulare und Infografiken, verdeutlichen kritische Herausforderungen aufgrund ihrer komplexen Layouts und textuellen Inhalte. Allerdings werden diese Herausforderungen von aktuellen Benchmarks nicht vollständig adressiert, da sie sich hauptsächlich auf die visuelle Verankerung in natürlichen Bildern konzentrieren und weniger auf textreiche Dokumentbilder. Um diese Lücke zu schließen, führen wir TRIG ein, eine neuartige Aufgabe mit einem neu gestalteten Instruktionsdatensatz zur Bewertung und Verbesserung der Textreichen Bildverankerungsfähigkeiten von MLLMs in der Dokumentfrage-Antwortung. Insbesondere schlagen wir eine OCR-LLM-Mensch-Interaktionspipeline vor, um 800 manuell annotierte Frage-Antwort-Paare als Benchmark und einen groß angelegten Trainingsdatensatz von 90$ synthetischen Daten basierend auf vier diversen Datensätzen zu erstellen. Eine umfassende Bewertung verschiedener MLLMs anhand unseres vorgeschlagenen Benchmarks zeigt erhebliche Einschränkungen in ihrer Verankerungsfähigkeit bei textreichen Bildern auf. Darüber hinaus schlagen wir zwei einfache und effektive TRIG-Methoden vor, die auf allgemeiner Instruktionsfeinabstimmung bzw. Plug-and-Play-effizienter Einbettung basieren. Durch die Feinabstimmung von MLLMs an unserem synthetischen Datensatz verbessern sich deren räumliche Argumentations- und Verankerungsfähigkeiten vielversprechend.
English
Despite the existing evolution of Multimodal Large Language Models (MLLMs), a non-neglectable limitation remains in their struggle with visual text grounding, especially in text-rich images of documents. Document images, such as scanned forms and infographics, highlight critical challenges due to their complex layouts and textual content. However, current benchmarks do not fully address these challenges, as they mostly focus on visual grounding on natural images, rather than text-rich document images. Thus, to bridge this gap, we introduce TRIG, a novel task with a newly designed instruction dataset for benchmarking and improving the Text-Rich Image Grounding capabilities of MLLMs in document question-answering. Specifically, we propose an OCR-LLM-human interaction pipeline to create 800 manually annotated question-answer pairs as a benchmark and a large-scale training set of 90$ synthetic data based on four diverse datasets. A comprehensive evaluation of various MLLMs on our proposed benchmark exposes substantial limitations in their grounding capability on text-rich images. In addition, we propose two simple and effective TRIG methods based on general instruction tuning and plug-and-play efficient embedding, respectively. By finetuning MLLMs on our synthetic dataset, they promisingly improve spatial reasoning and grounding capabilities.

Summary

AI-Generated Summary

PDF162April 11, 2025