ChatPaper.aiChatPaper

Visuelle Rätsel: Eine Herausforderung für Alltagsverstand und Weltwissen für große Bild- und Sprachmodelle

Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models

July 28, 2024
Autoren: Nitzan Bitton-Guetta, Aviv Slobodkin, Aviya Maimon, Eliya Habba, Royi Rassin, Yonatan Bitton, Idan Szpektor, Amir Globerson, Yuval Elovici
cs.AI

Zusammenfassung

Stellen Sie sich vor, Sie beobachten jemanden, der sich den Arm kratzt; um zu verstehen, warum, wäre zusätzlicher Kontext erforderlich. Wenn man jedoch eine Mücke in der Nähe entdeckt, würde dies sofort eine wahrscheinliche Erklärung für das Unbehagen der Person bieten und somit die Notwendigkeit weiterer Informationen verringern. Dieses Beispiel verdeutlicht, wie subtile visuelle Hinweise unsere kognitiven Fähigkeiten herausfordern können und die Komplexität der Interpretation visueller Szenarien zeigt. Um diese Fähigkeiten zu untersuchen, präsentieren wir Visual Riddles, einen Benchmark, der darauf abzielt, Vision- und Sprachmodelle anhand visueller Rätsel zu testen, die gesunden Menschenverstand und Weltwissen erfordern. Der Benchmark umfasst 400 visuelle Rätsel, von denen jedes ein einzigartiges Bild enthält, das von verschiedenen Text-zu-Bild-Modellen erstellt wurde, eine Frage, die richtige Antwort, einen textuellen Hinweis und eine Zuschreibung. Die menschliche Bewertung zeigt, dass bestehende Modelle deutlich hinter der menschlichen Leistung zurückbleiben, die bei einer Genauigkeit von 82\% liegt, wobei Gemini-Pro-1.5 mit einer Genauigkeit von 40\% führend ist. Unser Benchmark wird mit automatischen Bewertungsaufgaben geliefert, um die Bewertung skalierbar zu machen. Diese Ergebnisse unterstreichen das Potenzial von Visual Riddles als wertvolle Ressource zur Verbesserung der Fähigkeiten von Vision- und Sprachmodellen bei der Interpretation komplexer visueller Szenarien.
English
Imagine observing someone scratching their arm; to understand why, additional context would be necessary. However, spotting a mosquito nearby would immediately offer a likely explanation for the person's discomfort, thereby alleviating the need for further information. This example illustrates how subtle visual cues can challenge our cognitive skills and demonstrates the complexity of interpreting visual scenarios. To study these skills, we present Visual Riddles, a benchmark aimed to test vision and language models on visual riddles requiring commonsense and world knowledge. The benchmark comprises 400 visual riddles, each featuring a unique image created by a variety of text-to-image models, question, ground-truth answer, textual hint, and attribution. Human evaluation reveals that existing models lag significantly behind human performance, which is at 82\% accuracy, with Gemini-Pro-1.5 leading with 40\% accuracy. Our benchmark comes with automatic evaluation tasks to make assessment scalable. These findings underscore the potential of Visual Riddles as a valuable resource for enhancing vision and language models' capabilities in interpreting complex visual scenarios.

Summary

AI-Generated Summary

PDF232November 28, 2024