Visuele Raadsels: een Uitdaging op het Gebied van Gezond Verstand en Wereldkennis voor Grote Visuele en Taalmodellen
Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models
July 28, 2024
Auteurs: Nitzan Bitton-Guetta, Aviv Slobodkin, Aviya Maimon, Eliya Habba, Royi Rassin, Yonatan Bitton, Idan Szpektor, Amir Globerson, Yuval Elovici
cs.AI
Samenvatting
Stel je voor dat je iemand ziet die aan zijn arm krabt; om te begrijpen waarom, zou extra context nodig zijn. Als je echter een mug in de buurt ziet, biedt dat meteen een waarschijnlijke verklaring voor het ongemak van die persoon, waardoor verdere informatie overbodig wordt. Dit voorbeeld illustreert hoe subtiele visuele aanwijzingen onze cognitieve vaardigheden kunnen uitdagen en toont de complexiteit van het interpreteren van visuele scenario's. Om deze vaardigheden te bestuderen, presenteren we Visual Riddles, een benchmark die bedoeld is om visie- en taalmodelen te testen op visuele raadsels die gezond verstand en wereldkennis vereisen. De benchmark bestaat uit 400 visuele raadsels, elk met een unieke afbeelding die is gemaakt door verschillende tekst-naar-beeldmodellen, een vraag, een juist antwoord, een tekstuele hint en een bronvermelding. Menselijke evaluatie laat zien dat bestaande modellen aanzienlijk achterblijven bij menselijke prestaties, die een nauwkeurigheid van 82% hebben, waarbij Gemini-Pro-1.5 met 40% nauwkeurigheid de leiding heeft. Onze benchmark wordt geleverd met automatische evaluatietaken om de beoordeling schaalbaar te maken. Deze bevindingen onderstrepen het potentieel van Visual Riddles als een waardevolle bron voor het verbeteren van de mogelijkheden van visie- en taalmodelen bij het interpreteren van complexe visuele scenario's.
English
Imagine observing someone scratching their arm; to understand why, additional
context would be necessary. However, spotting a mosquito nearby would
immediately offer a likely explanation for the person's discomfort, thereby
alleviating the need for further information. This example illustrates how
subtle visual cues can challenge our cognitive skills and demonstrates the
complexity of interpreting visual scenarios. To study these skills, we present
Visual Riddles, a benchmark aimed to test vision and language models on visual
riddles requiring commonsense and world knowledge. The benchmark comprises 400
visual riddles, each featuring a unique image created by a variety of
text-to-image models, question, ground-truth answer, textual hint, and
attribution. Human evaluation reveals that existing models lag significantly
behind human performance, which is at 82\% accuracy, with Gemini-Pro-1.5
leading with 40\% accuracy. Our benchmark comes with automatic evaluation tasks
to make assessment scalable. These findings underscore the potential of Visual
Riddles as a valuable resource for enhancing vision and language models'
capabilities in interpreting complex visual scenarios.