ConTextual: Evaluatie van contextgevoelige tekstrijke visuele redenering in grote multimodale modellen
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models
January 24, 2024
Auteurs: Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng
cs.AI
Samenvatting
Recente vooruitgang in AI heeft geleid tot de ontwikkeling van grote multimodale modellen (LMMs) die in staat zijn complexe taken te verwerken die gezamenlijke redenering over tekst en visuele inhoud in afbeeldingen vereisen (bijvoorbeeld het navigeren van kaarten in openbare ruimtes). Dit artikel introduceert ConTextual, een nieuwe benchmark bestaande uit instructies die expliciet zijn ontworpen om het vermogen van LMMs te evalueren om contextgevoelige, tekstrijke visuele redeneringen uit te voeren. ConTextual legt de nadruk op diverse realistische scenario's (bijvoorbeeld tijdsaanduiding, navigatie, winkelen en meer) die een dieper begrip vereisen van de interacties tussen tekstuele en visuele elementen. Onze bevindingen tonen een significant prestatieverschil van 30,8% tussen het best presterende LMM, GPT-4V(ision), en menselijke capaciteiten bij gebruik van menselijke evaluatie, wat wijst op aanzienlijke ruimte voor verbetering in contextgevoelige, tekstrijke visuele redeneringen. Opmerkelijk is dat GPT-4V weliswaar uitblonk in abstracte categorieën zoals meme- en citateninterpretatie, maar dat de algehele prestaties nog steeds achterbleven bij die van mensen. Naast menselijke evaluaties hebben we ook automatische evaluatiemetrics gebruikt met GPT-4, waarbij vergelijkbare trends in prestatieverschillen werden ontdekt. We voeren ook een gedetailleerde evaluatie uit in diverse visuele contexten en bieden een kwalitatieve analyse, wat een robuust kader biedt voor toekomstige vooruitgang in het ontwerp van LMMs.
https://con-textual.github.io/
English
Recent advancements in AI have led to the development of large multimodal
models (LMMs) capable of processing complex tasks involving joint reasoning
over text and visual content in the image (e.g., navigating maps in public
places). This paper introduces ConTextual, a novel benchmark comprising
instructions designed explicitly to evaluate LMMs' ability to perform
context-sensitive text-rich visual reasoning. ConTextual emphasizes diverse
real-world scenarios (e.g., time-reading, navigation, shopping and more)
demanding a deeper understanding of the interactions between textual and visual
elements. Our findings reveal a significant performance gap of 30.8% between
the best-performing LMM, GPT-4V(ision), and human capabilities using human
evaluation indicating substantial room for improvement in context-sensitive
text-rich visual reasoning. Notably, while GPT-4V excelled in abstract
categories like meme and quote interpretation, its overall performance still
lagged behind humans. In addition to human evaluations, we also employed
automatic evaluation metrics using GPT-4, uncovering similar trends in
performance disparities. We also perform a fine-grained evaluation across
diverse visual contexts and provide qualitative analysis which provides a
robust framework for future advancements in the LMM design.
https://con-textual.github.io/