Naar visuele tekstverankering van multimodale grote taalmodellen
Towards Visual Text Grounding of Multimodal Large Language Model
April 7, 2025
Auteurs: Ming Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun
cs.AI
Samenvatting
Ondanks de bestaande evolutie van Multimodale Grote Taalmodellen (MLLMs), blijft een niet te verwaarlozen beperking bestaan in hun moeite met visuele tekstverankering, vooral in tekstrijke afbeeldingen van documenten. Documentafbeeldingen, zoals gescande formulieren en infographics, benadrukken kritieke uitdagingen vanwege hun complexe lay-outs en tekstuele inhoud. Huidige benchmarks pakken deze uitdagingen echter niet volledig aan, aangezien ze zich voornamelijk richten op visuele verankering in natuurlijke afbeeldingen in plaats van tekstrijke documentafbeeldingen. Om deze kloof te overbruggen, introduceren we TRIG, een nieuwe taak met een nieuw ontworpen instructiedataset voor het benchmarken en verbeteren van de tekstrijke beeldverankeringscapaciteiten van MLLMs in documentvraag-antwoordtaken. Specifiek stellen we een OCR-LLM-mens-interactiepijplijn voor om 800 handmatig geannoteerde vraag-antwoordparen te creëren als benchmark en een grootschalige trainingset van 90$ synthetische data gebaseerd op vier diverse datasets. Een uitgebreide evaluatie van verschillende MLLMs op onze voorgestelde benchmark onthult aanzienlijke beperkingen in hun verankeringscapaciteit op tekstrijke afbeeldingen. Daarnaast stellen we twee eenvoudige en effectieve TRIG-methoden voor, gebaseerd op algemene instructieafstemming en plug-and-play efficiënte embedding, respectievelijk. Door MLLMs af te stemmen op onze synthetische dataset, verbeteren ze veelbelovend hun ruimtelijke redeneer- en verankeringscapaciteiten.
English
Despite the existing evolution of Multimodal Large Language Models (MLLMs), a
non-neglectable limitation remains in their struggle with visual text
grounding, especially in text-rich images of documents. Document images, such
as scanned forms and infographics, highlight critical challenges due to their
complex layouts and textual content. However, current benchmarks do not fully
address these challenges, as they mostly focus on visual grounding on natural
images, rather than text-rich document images. Thus, to bridge this gap, we
introduce TRIG, a novel task with a newly designed instruction dataset for
benchmarking and improving the Text-Rich Image Grounding capabilities of MLLMs
in document question-answering. Specifically, we propose an OCR-LLM-human
interaction pipeline to create 800 manually annotated question-answer pairs as
a benchmark and a large-scale training set of 90$ synthetic data based on four
diverse datasets. A comprehensive evaluation of various MLLMs on our proposed
benchmark exposes substantial limitations in their grounding capability on
text-rich images. In addition, we propose two simple and effective TRIG methods
based on general instruction tuning and plug-and-play efficient embedding,
respectively. By finetuning MLLMs on our synthetic dataset, they promisingly
improve spatial reasoning and grounding capabilities.