ConTextual: Evaluación del razonamiento visual enriquecido con texto sensible al contexto en modelos multimodales de gran escala
ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models
January 24, 2024
Autores: Rohan Wadhawan, Hritik Bansal, Kai-Wei Chang, Nanyun Peng
cs.AI
Resumen
Los recientes avances en IA han llevado al desarrollo de modelos multimodales grandes (LMMs, por sus siglas en inglés) capaces de procesar tareas complejas que implican razonamiento conjunto sobre texto y contenido visual en imágenes (por ejemplo, navegar mapas en lugares públicos). Este artículo presenta ConTextual, un nuevo benchmark que comprende instrucciones diseñadas explícitamente para evaluar la capacidad de los LMMs para realizar razonamiento visual sensible al contexto en escenarios ricos en texto. ConTextual enfatiza diversos escenarios del mundo real (por ejemplo, lectura de la hora, navegación, compras y más) que exigen una comprensión más profunda de las interacciones entre elementos textuales y visuales. Nuestros hallazgos revelan una brecha de rendimiento significativa del 30.8% entre el mejor LMM, GPT-4V(isión), y las capacidades humanas, según evaluaciones humanas, lo que indica un amplio margen de mejora en el razonamiento visual sensible al contexto en escenarios ricos en texto. Cabe destacar que, aunque GPT-4V destacó en categorías abstractas como la interpretación de memes y citas, su rendimiento general aún se quedó por detrás del de los humanos. Además de las evaluaciones humanas, también empleamos métricas de evaluación automática utilizando GPT-4, descubriendo tendencias similares en las disparidades de rendimiento. También realizamos una evaluación detallada en diversos contextos visuales y proporcionamos un análisis cualitativo que ofrece un marco robusto para futuros avances en el diseño de LMMs.
https://con-textual.github.io/
English
Recent advancements in AI have led to the development of large multimodal
models (LMMs) capable of processing complex tasks involving joint reasoning
over text and visual content in the image (e.g., navigating maps in public
places). This paper introduces ConTextual, a novel benchmark comprising
instructions designed explicitly to evaluate LMMs' ability to perform
context-sensitive text-rich visual reasoning. ConTextual emphasizes diverse
real-world scenarios (e.g., time-reading, navigation, shopping and more)
demanding a deeper understanding of the interactions between textual and visual
elements. Our findings reveal a significant performance gap of 30.8% between
the best-performing LMM, GPT-4V(ision), and human capabilities using human
evaluation indicating substantial room for improvement in context-sensitive
text-rich visual reasoning. Notably, while GPT-4V excelled in abstract
categories like meme and quote interpretation, its overall performance still
lagged behind humans. In addition to human evaluations, we also employed
automatic evaluation metrics using GPT-4, uncovering similar trends in
performance disparities. We also perform a fine-grained evaluation across
diverse visual contexts and provide qualitative analysis which provides a
robust framework for future advancements in the LMM design.
https://con-textual.github.io/