ConTextual: Bewertung kontextsensibler, textreicher visueller Schlussfolgerungen in großen multimodalen Modellen
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models
January 24, 2024
Autoren: Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng
cs.AI
Zusammenfassung
Jüngste Fortschritte in der KI haben zur Entwicklung großer multimodaler Modelle (LMMs) geführt, die in der Lage sind, komplexe Aufgaben zu bewältigen, die gemeinsames Schlussfolgern über Text und visuelle Inhalte in Bildern erfordern (z. B. die Navigation in Karten an öffentlichen Orten). Dieses Papier stellt ConTextual vor, einen neuartigen Benchmark, der Anweisungen enthält, die explizit darauf abzielen, die Fähigkeit von LMMs zur kontextsensiblen, textreichen visuellen Schlussfolgerung zu bewerten. ConTextual betont vielfältige reale Szenarien (z. B. Zeitablesung, Navigation, Einkaufen und mehr), die ein tieferes Verständnis der Interaktionen zwischen textuellen und visuellen Elementen erfordern. Unsere Ergebnisse zeigen eine signifikante Leistungslücke von 30,8 % zwischen dem leistungsstärksten LMM, GPT-4V(ision), und menschlichen Fähigkeiten, was auf erheblichen Verbesserungsbedarf bei der kontextsensiblen, textreichen visuellen Schlussfolgerung hinweist. Bemerkenswerterweise übertraf GPT-4V zwar in abstrakten Kategorien wie der Interpretation von Memes und Zitaten, seine Gesamtleistung blieb jedoch hinter der von Menschen zurück. Neben menschlichen Bewertungen setzten wir auch automatische Bewertungsmetriken mit GPT-4 ein, die ähnliche Trends in den Leistungsunterschieden aufdeckten. Wir führen zudem eine detaillierte Bewertung über verschiedene visuelle Kontexte hinweg durch und bieten eine qualitative Analyse, die einen robusten Rahmen für zukünftige Fortschritte im LMM-Design liefert.
https://con-textual.github.io/
English
Recent advancements in AI have led to the development of large multimodal
models (LMMs) capable of processing complex tasks involving joint reasoning
over text and visual content in the image (e.g., navigating maps in public
places). This paper introduces ConTextual, a novel benchmark comprising
instructions designed explicitly to evaluate LMMs' ability to perform
context-sensitive text-rich visual reasoning. ConTextual emphasizes diverse
real-world scenarios (e.g., time-reading, navigation, shopping and more)
demanding a deeper understanding of the interactions between textual and visual
elements. Our findings reveal a significant performance gap of 30.8% between
the best-performing LMM, GPT-4V(ision), and human capabilities using human
evaluation indicating substantial room for improvement in context-sensitive
text-rich visual reasoning. Notably, while GPT-4V excelled in abstract
categories like meme and quote interpretation, its overall performance still
lagged behind humans. In addition to human evaluations, we also employed
automatic evaluation metrics using GPT-4, uncovering similar trends in
performance disparities. We also perform a fine-grained evaluation across
diverse visual contexts and provide qualitative analysis which provides a
robust framework for future advancements in the LMM design.
https://con-textual.github.io/