다중모드 대형 언어 모델의 시각적 텍스트 그라운딩을 향하여
Towards Visual Text Grounding of Multimodal Large Language Model
April 7, 2025
저자: Ming Li, Ruiyi Zhang, Jian Chen, Jiuxiang Gu, Yufan Zhou, Franck Dernoncourt, Wanrong Zhu, Tianyi Zhou, Tong Sun
cs.AI
초록
멀티모달 대형 언어 모델(MLLMs)의 기존 진화에도 불구하고, 특히 문서와 같은 텍스트가 풍부한 이미지에서 시각적 텍스트 그라운딩(visual text grounding)에 어려움을 겪는 중요한 한계가 여전히 존재합니다. 스캔된 양식과 인포그래픽과 같은 문서 이미지는 복잡한 레이아웃과 텍스트 콘텐츠로 인해 중요한 도전 과제를 강조합니다. 그러나 현재의 벤치마크는 이러한 도전 과제를 충분히 다루지 못하고 있으며, 대부분 자연 이미지에 대한 시각적 그라운딩에 초점을 맞추고 있습니다. 따라서 이러한 격차를 해소하기 위해, 우리는 문서 질문-응답에서 MLLMs의 텍스트가 풍부한 이미지 그라운딩 능력을 벤치마킹하고 개선하기 위한 새로운 작업인 TRIG와 새롭게 설계된 명령어 데이터셋을 소개합니다. 구체적으로, 우리는 OCR-LLM-인간 상호작용 파이프라인을 제안하여 800개의 수동으로 주석이 달린 질문-응답 쌍을 벤치마크로 생성하고, 네 가지 다양한 데이터셋을 기반으로 90$의 대규모 합성 데이터셋을 학습 세트로 구성했습니다. 우리가 제안한 벤치마크에 대한 다양한 MLLMs의 종합적인 평가는 텍스트가 풍부한 이미지에서의 그라운딩 능력에 상당한 한계를 드러냈습니다. 또한, 우리는 일반적인 명령어 튜닝과 플러그 앤 플레이 효율적 임베딩을 기반으로 한 두 가지 간단하고 효과적인 TRIG 방법을 제안합니다. 합성 데이터셋에서 MLLMs를 미세 조정함으로써, 공간 추론 및 그라운딩 능력이 유망하게 개선되었습니다.
English
Despite the existing evolution of Multimodal Large Language Models (MLLMs), a
non-neglectable limitation remains in their struggle with visual text
grounding, especially in text-rich images of documents. Document images, such
as scanned forms and infographics, highlight critical challenges due to their
complex layouts and textual content. However, current benchmarks do not fully
address these challenges, as they mostly focus on visual grounding on natural
images, rather than text-rich document images. Thus, to bridge this gap, we
introduce TRIG, a novel task with a newly designed instruction dataset for
benchmarking and improving the Text-Rich Image Grounding capabilities of MLLMs
in document question-answering. Specifically, we propose an OCR-LLM-human
interaction pipeline to create 800 manually annotated question-answer pairs as
a benchmark and a large-scale training set of 90$ synthetic data based on four
diverse datasets. A comprehensive evaluation of various MLLMs on our proposed
benchmark exposes substantial limitations in their grounding capability on
text-rich images. In addition, we propose two simple and effective TRIG methods
based on general instruction tuning and plug-and-play efficient embedding,
respectively. By finetuning MLLMs on our synthetic dataset, they promisingly
improve spatial reasoning and grounding capabilities.Summary
AI-Generated Summary