ChatPaper.aiChatPaper

BLINK:マルチモーダル大規模言語モデルは見ることはできるが、認識することはできない

BLINK: Multimodal Large Language Models Can See but Not Perceive

April 18, 2024
著者: Xingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A. Smith, Wei-Chiu Ma, Ranjay Krishna
cs.AI

要旨

我々は、Blinkという新しいマルチモーダル言語モデル(LLM)のベンチマークを紹介する。これは、他の評価では見られない中核的な視覚知覚能力に焦点を当てたものである。Blinkのタスクの多くは、人間が「瞬きの間に」解決できるものである(例:相対的な深度推定、視覚的対応、フォレンジックス検出、多視点推論)。しかし、これらの知覚を要するタスクは、自然言語を介した仲介に抵抗するため、現在のマルチモーダルLLMにとって大きな課題となることがわかった。Blinkは、14の古典的なコンピュータビジョンタスクを3,807の多肢選択問題に再フォーマットし、単一または複数の画像と視覚的プロンプトを組み合わせている。人間の平均正解率は95.70%であるのに対し、Blinkは既存のマルチモーダルLLMにとって驚くほど難易度が高く、最高性能のGPT-4VとGeminiでもそれぞれ51.26%と45.72%の正解率しか達成できず、ランダムな推測よりもわずか13.17%と7.63%高いだけである。これは、最近のマルチモーダルLLMにおいて、そのような知覚能力がまだ「出現」していないことを示している。我々の分析はまた、専門家のCVモデルがこれらの問題をはるかに良く解決できることを強調しており、将来の改善のための潜在的な道筋を示唆している。Blinkが、マルチモーダルLLMが人間レベルの視覚知覚に追いつくためのコミュニティの刺激となることを信じている。
English
We introduce Blink, a new benchmark for multimodal language models (LLMs) that focuses on core visual perception abilities not found in other evaluations. Most of the Blink tasks can be solved by humans "within a blink" (e.g., relative depth estimation, visual correspondence, forensics detection, and multi-view reasoning). However, we find these perception-demanding tasks cast significant challenges for current multimodal LLMs because they resist mediation through natural language. Blink reformats 14 classic computer vision tasks into 3,807 multiple-choice questions, paired with single or multiple images and visual prompting. While humans get 95.70% accuracy on average, Blink is surprisingly challenging for existing multimodal LLMs: even the best-performing GPT-4V and Gemini achieve accuracies of 51.26% and 45.72%, only 13.17% and 7.63% higher than random guessing, indicating that such perception abilities have not "emerged" yet in recent multimodal LLMs. Our analysis also highlights that specialist CV models could solve these problems much better, suggesting potential pathways for future improvements. We believe Blink will stimulate the community to help multimodal LLMs catch up with human-level visual perception.

Summary

AI-Generated Summary

PDF272December 15, 2024