ChatPaper.aiChatPaper

Acertijos Visuales: un Desafío de Sentido Común y Conocimiento del Mundo para Modelos de Visión y Lenguaje a Gran Escala

Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models

July 28, 2024
Autores: Nitzan Bitton-Guetta, Aviv Slobodkin, Aviya Maimon, Eliya Habba, Royi Rassin, Yonatan Bitton, Idan Szpektor, Amir Globerson, Yuval Elovici
cs.AI

Resumen

Imagina observar a alguien rascándose el brazo; para entender por qué, sería necesaria información adicional. Sin embargo, al ver un mosquito cerca, inmediatamente se ofrecería una explicación probable para la incomodidad de la persona, aliviando así la necesidad de más información. Este ejemplo ilustra cómo las sutiles señales visuales pueden desafiar nuestras habilidades cognitivas y demuestra la complejidad de interpretar escenarios visuales. Para estudiar estas habilidades, presentamos Acertijos Visuales, un punto de referencia diseñado para probar modelos de visión y lenguaje en acertijos visuales que requieren sentido común y conocimiento del mundo. El punto de referencia consta de 400 acertijos visuales, cada uno con una imagen única creada por una variedad de modelos de texto a imagen, una pregunta, una respuesta verdadera, una pista textual y una atribución. La evaluación humana revela que los modelos existentes se quedan significativamente atrás del rendimiento humano, que es del 82\% de precisión, con Gemini-Pro-1.5 liderando con un 40\% de precisión. Nuestro punto de referencia viene con tareas de evaluación automática para hacer que la evaluación sea escalable. Estos hallazgos subrayan el potencial de Acertijos Visuales como un recurso valioso para mejorar las capacidades de los modelos de visión y lenguaje en la interpretación de escenarios visuales complejos.
English
Imagine observing someone scratching their arm; to understand why, additional context would be necessary. However, spotting a mosquito nearby would immediately offer a likely explanation for the person's discomfort, thereby alleviating the need for further information. This example illustrates how subtle visual cues can challenge our cognitive skills and demonstrates the complexity of interpreting visual scenarios. To study these skills, we present Visual Riddles, a benchmark aimed to test vision and language models on visual riddles requiring commonsense and world knowledge. The benchmark comprises 400 visual riddles, each featuring a unique image created by a variety of text-to-image models, question, ground-truth answer, textual hint, and attribution. Human evaluation reveals that existing models lag significantly behind human performance, which is at 82\% accuracy, with Gemini-Pro-1.5 leading with 40\% accuracy. Our benchmark comes with automatic evaluation tasks to make assessment scalable. These findings underscore the potential of Visual Riddles as a valuable resource for enhancing vision and language models' capabilities in interpreting complex visual scenarios.

Summary

AI-Generated Summary

PDF232November 28, 2024