BLINK: Multimodale große Sprachmodelle können sehen, aber nicht wahrnehmen.

papers.abstract

Wir stellen Blink vor, einen neuen Benchmark für multimodale Sprachmodelle (LLMs), der sich auf grundlegende visuelle Wahrnehmungsfähigkeiten konzentriert, die in anderen Bewertungen nicht zu finden sind. Die meisten Blink-Aufgaben können von Menschen "im Handumdrehen" gelöst werden (z. B. relative Tiefenschätzung, visuelle Korrespondenz, forensische Erkennung und Multi-View-Argumentation). Allerdings stellen wir fest, dass diese wahrnehmungsintensiven Aufgaben signifikante Herausforderungen für aktuelle multimodale LLMs darstellen, da sie sich gegen die Vermittlung durch natürliche Sprache wehren. Blink formatiert 14 klassische Computer Vision Aufgaben in 3.807 Multiple-Choice-Fragen um, gepaart mit einzelnen oder mehreren Bildern und visuellen Hinweisen. Während Menschen durchschnittlich eine Genauigkeit von 95,70% erreichen, ist Blink überraschend herausfordernd für bestehende multimodale LLMs: Selbst die leistungsstärksten GPT-4V und Gemini erzielen Genauigkeiten von 51,26% bzw. 45,72%, nur 13,17% bzw. 7,63% höher als zufälliges Raten, was darauf hindeutet, dass solche Wahrnehmungsfähigkeiten in aktuellen multimodalen LLMs noch nicht "aufgetaucht" sind. Unsere Analyse zeigt auch, dass spezialisierte CV-Modelle diese Probleme viel besser lösen könnten, was potenzielle Wege für zukünftige Verbesserungen nahelegt. Wir glauben, dass Blink die Gemeinschaft dazu anregen wird, multimodale LLMs auf das Niveau der menschlichen visuellen Wahrnehmung zu bringen.

English

We introduce Blink, a new benchmark for multimodal language models (LLMs) that focuses on core visual perception abilities not found in other evaluations. Most of the Blink tasks can be solved by humans "within a blink" (e.g., relative depth estimation, visual correspondence, forensics detection, and multi-view reasoning). However, we find these perception-demanding tasks cast significant challenges for current multimodal LLMs because they resist mediation through natural language. Blink reformats 14 classic computer vision tasks into 3,807 multiple-choice questions, paired with single or multiple images and visual prompting. While humans get 95.70% accuracy on average, Blink is surprisingly challenging for existing multimodal LLMs: even the best-performing GPT-4V and Gemini achieve accuracies of 51.26% and 45.72%, only 13.17% and 7.63% higher than random guessing, indicating that such perception abilities have not "emerged" yet in recent multimodal LLMs. Our analysis also highlights that specialist CV models could solve these problems much better, suggesting potential pathways for future improvements. We believe Blink will stimulate the community to help multimodal LLMs catch up with human-level visual perception.

BLINK: Multimodale große Sprachmodelle können sehen, aber nicht wahrnehmen.

BLINK: Multimodal Large Language Models Can See but Not Perceive

papers.abstract

Support