ConTextual: Valutazione del ragionamento visivo su testi contestuali nei grandi modelli multimodali
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models
January 24, 2024
Autori: Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng
cs.AI
Abstract
I recenti progressi nell'IA hanno portato allo sviluppo di modelli multimodali di grandi dimensioni (LMM) in grado di elaborare compiti complessi che richiedono un ragionamento congiunto su testo e contenuti visivi nelle immagini (ad esempio, navigare mappe in luoghi pubblici). Questo articolo introduce ConTextual, un nuovo benchmark composto da istruzioni progettate specificamente per valutare la capacità degli LMM di eseguire ragionamenti visivi sensibili al contesto e ricchi di testo. ConTextual enfatizza scenari reali diversificati (ad esempio, lettura dell'ora, navigazione, shopping e altro) che richiedono una comprensione più profonda delle interazioni tra elementi testuali e visivi. I nostri risultati rivelano un significativo divario di prestazioni del 30,8% tra il miglior LMM, GPT-4V(ision), e le capacità umane, valutate tramite giudizi umani, indicando un ampio margine di miglioramento nel ragionamento visivo sensibile al contesto e ricco di testo. In particolare, mentre GPT-4V ha eccelso in categorie astratte come l'interpretazione di meme e citazioni, le sue prestazioni complessive sono rimaste inferiori a quelle umane. Oltre alle valutazioni umane, abbiamo anche utilizzato metriche di valutazione automatica basate su GPT-4, riscontrando tendenze simili nelle disparità di prestazioni. Abbiamo inoltre condotto una valutazione granulare in diversi contesti visivi e fornito un'analisi qualitativa che offre un solido framework per i futuri progressi nella progettazione degli LMM.
https://con-textual.github.io/
English
Recent advancements in AI have led to the development of large multimodal
models (LMMs) capable of processing complex tasks involving joint reasoning
over text and visual content in the image (e.g., navigating maps in public
places). This paper introduces ConTextual, a novel benchmark comprising
instructions designed explicitly to evaluate LMMs' ability to perform
context-sensitive text-rich visual reasoning. ConTextual emphasizes diverse
real-world scenarios (e.g., time-reading, navigation, shopping and more)
demanding a deeper understanding of the interactions between textual and visual
elements. Our findings reveal a significant performance gap of 30.8% between
the best-performing LMM, GPT-4V(ision), and human capabilities using human
evaluation indicating substantial room for improvement in context-sensitive
text-rich visual reasoning. Notably, while GPT-4V excelled in abstract
categories like meme and quote interpretation, its overall performance still
lagged behind humans. In addition to human evaluations, we also employed
automatic evaluation metrics using GPT-4, uncovering similar trends in
performance disparities. We also perform a fine-grained evaluation across
diverse visual contexts and provide qualitative analysis which provides a
robust framework for future advancements in the LMM design.
https://con-textual.github.io/