ConTextual : Évaluation du raisonnement visuel contextuel sur texte dans les grands modèles multimodaux
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models
January 24, 2024
Auteurs: Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng
cs.AI
Résumé
Les récents progrès en IA ont conduit au développement de grands modèles multimodaux (LMMs) capables de traiter des tâches complexes impliquant un raisonnement conjoint sur le texte et le contenu visuel d'une image (par exemple, naviguer sur des cartes dans des lieux publics). Cet article présente ConTextual, un nouveau benchmark comprenant des instructions conçues explicitement pour évaluer la capacité des LMMs à effectuer un raisonnement visuel riche en texte sensible au contexte. ConTextual met l'accent sur divers scénarios du monde réel (par exemple, la lecture de l'heure, la navigation, les achats et plus encore) exigeant une compréhension approfondie des interactions entre les éléments textuels et visuels. Nos résultats révèlent un écart de performance significatif de 30,8 % entre le meilleur LMM, GPT-4V(ision), et les capacités humaines, selon une évaluation humaine, indiquant une marge d'amélioration substantielle dans le raisonnement visuel riche en texte sensible au contexte. Notamment, bien que GPT-4V ait excellé dans des catégories abstraites comme l'interprétation de mèmes et de citations, sa performance globale reste inférieure à celle des humains. En plus des évaluations humaines, nous avons également utilisé des métriques d'évaluation automatique avec GPT-4, révélant des tendances similaires dans les écarts de performance. Nous effectuons également une évaluation fine dans divers contextes visuels et fournissons une analyse qualitative qui offre un cadre robuste pour les avancées futures dans la conception des LMMs.
https://con-textual.github.io/
English
Recent advancements in AI have led to the development of large multimodal
models (LMMs) capable of processing complex tasks involving joint reasoning
over text and visual content in the image (e.g., navigating maps in public
places). This paper introduces ConTextual, a novel benchmark comprising
instructions designed explicitly to evaluate LMMs' ability to perform
context-sensitive text-rich visual reasoning. ConTextual emphasizes diverse
real-world scenarios (e.g., time-reading, navigation, shopping and more)
demanding a deeper understanding of the interactions between textual and visual
elements. Our findings reveal a significant performance gap of 30.8% between
the best-performing LMM, GPT-4V(ision), and human capabilities using human
evaluation indicating substantial room for improvement in context-sensitive
text-rich visual reasoning. Notably, while GPT-4V excelled in abstract
categories like meme and quote interpretation, its overall performance still
lagged behind humans. In addition to human evaluations, we also employed
automatic evaluation metrics using GPT-4, uncovering similar trends in
performance disparities. We also perform a fine-grained evaluation across
diverse visual contexts and provide qualitative analysis which provides a
robust framework for future advancements in the LMM design.
https://con-textual.github.io/