Visuele Raadsels: een Uitdaging op het Gebied van Gezond Verstand en Wereldkennis voor Grote Visuele en Taalmodellen

Samenvatting

Stel je voor dat je iemand ziet die aan zijn arm krabt; om te begrijpen waarom, zou extra context nodig zijn. Als je echter een mug in de buurt ziet, biedt dat meteen een waarschijnlijke verklaring voor het ongemak van die persoon, waardoor verdere informatie overbodig wordt. Dit voorbeeld illustreert hoe subtiele visuele aanwijzingen onze cognitieve vaardigheden kunnen uitdagen en toont de complexiteit van het interpreteren van visuele scenario's. Om deze vaardigheden te bestuderen, presenteren we Visual Riddles, een benchmark die bedoeld is om visie- en taalmodelen te testen op visuele raadsels die gezond verstand en wereldkennis vereisen. De benchmark bestaat uit 400 visuele raadsels, elk met een unieke afbeelding die is gemaakt door verschillende tekst-naar-beeldmodellen, een vraag, een juist antwoord, een tekstuele hint en een bronvermelding. Menselijke evaluatie laat zien dat bestaande modellen aanzienlijk achterblijven bij menselijke prestaties, die een nauwkeurigheid van 82% hebben, waarbij Gemini-Pro-1.5 met 40% nauwkeurigheid de leiding heeft. Onze benchmark wordt geleverd met automatische evaluatietaken om de beoordeling schaalbaar te maken. Deze bevindingen onderstrepen het potentieel van Visual Riddles als een waardevolle bron voor het verbeteren van de mogelijkheden van visie- en taalmodelen bij het interpreteren van complexe visuele scenario's.

English

Imagine observing someone scratching their arm; to understand why, additional context would be necessary. However, spotting a mosquito nearby would immediately offer a likely explanation for the person's discomfort, thereby alleviating the need for further information. This example illustrates how subtle visual cues can challenge our cognitive skills and demonstrates the complexity of interpreting visual scenarios. To study these skills, we present Visual Riddles, a benchmark aimed to test vision and language models on visual riddles requiring commonsense and world knowledge. The benchmark comprises 400 visual riddles, each featuring a unique image created by a variety of text-to-image models, question, ground-truth answer, textual hint, and attribution. Human evaluation reveals that existing models lag significantly behind human performance, which is at 82\% accuracy, with Gemini-Pro-1.5 leading with 40\% accuracy. Our benchmark comes with automatic evaluation tasks to make assessment scalable. These findings underscore the potential of Visual Riddles as a valuable resource for enhancing vision and language models' capabilities in interpreting complex visual scenarios.

Visuele Raadsels: een Uitdaging op het Gebied van Gezond Verstand en Wereldkennis voor Grote Visuele en Taalmodellen

Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models

Samenvatting

Support