BLINK: Multimodale große Sprachmodelle können sehen, aber nicht wahrnehmen.
BLINK: Multimodal Large Language Models Can See but Not Perceive
April 18, 2024
Autoren: Xingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A. Smith, Wei-Chiu Ma, Ranjay Krishna
cs.AI
Zusammenfassung
Wir stellen Blink vor, einen neuen Benchmark für multimodale Sprachmodelle (LLMs), der sich auf grundlegende visuelle Wahrnehmungsfähigkeiten konzentriert, die in anderen Bewertungen nicht zu finden sind. Die meisten Blink-Aufgaben können von Menschen "im Handumdrehen" gelöst werden (z. B. relative Tiefenschätzung, visuelle Korrespondenz, forensische Erkennung und Multi-View-Argumentation). Allerdings stellen wir fest, dass diese wahrnehmungsintensiven Aufgaben signifikante Herausforderungen für aktuelle multimodale LLMs darstellen, da sie sich gegen die Vermittlung durch natürliche Sprache wehren. Blink formatiert 14 klassische Computer Vision Aufgaben in 3.807 Multiple-Choice-Fragen um, gepaart mit einzelnen oder mehreren Bildern und visuellen Hinweisen. Während Menschen durchschnittlich eine Genauigkeit von 95,70% erreichen, ist Blink überraschend herausfordernd für bestehende multimodale LLMs: Selbst die leistungsstärksten GPT-4V und Gemini erzielen Genauigkeiten von 51,26% bzw. 45,72%, nur 13,17% bzw. 7,63% höher als zufälliges Raten, was darauf hindeutet, dass solche Wahrnehmungsfähigkeiten in aktuellen multimodalen LLMs noch nicht "aufgetaucht" sind. Unsere Analyse zeigt auch, dass spezialisierte CV-Modelle diese Probleme viel besser lösen könnten, was potenzielle Wege für zukünftige Verbesserungen nahelegt. Wir glauben, dass Blink die Gemeinschaft dazu anregen wird, multimodale LLMs auf das Niveau der menschlichen visuellen Wahrnehmung zu bringen.
English
We introduce Blink, a new benchmark for multimodal language models (LLMs)
that focuses on core visual perception abilities not found in other
evaluations. Most of the Blink tasks can be solved by humans "within a blink"
(e.g., relative depth estimation, visual correspondence, forensics detection,
and multi-view reasoning). However, we find these perception-demanding tasks
cast significant challenges for current multimodal LLMs because they resist
mediation through natural language. Blink reformats 14 classic computer vision
tasks into 3,807 multiple-choice questions, paired with single or multiple
images and visual prompting. While humans get 95.70% accuracy on average, Blink
is surprisingly challenging for existing multimodal LLMs: even the
best-performing GPT-4V and Gemini achieve accuracies of 51.26% and 45.72%, only
13.17% and 7.63% higher than random guessing, indicating that such perception
abilities have not "emerged" yet in recent multimodal LLMs. Our analysis also
highlights that specialist CV models could solve these problems much better,
suggesting potential pathways for future improvements. We believe Blink will
stimulate the community to help multimodal LLMs catch up with human-level
visual perception.Summary
AI-Generated Summary