ChatPaper.aiChatPaper

BLINK: 멀티모달 대형 언어 모델은 볼 수는 있지만 인식하지 못한다

BLINK: Multimodal Large Language Models Can See but Not Perceive

April 18, 2024
저자: Xingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A. Smith, Wei-Chiu Ma, Ranjay Krishna
cs.AI

초록

우리는 기존 평가에서 다루지 않았던 핵심 시각 인식 능력에 초점을 맞춘 새로운 멀티모달 언어 모델(LLM) 벤치마크인 Blink을 소개한다. Blink의 대부분의 과제는 인간이 "눈 깜짝할 사이에" 해결할 수 있는 것들(예: 상대적 깊이 추정, 시각적 대응, 포렌식 탐지, 다중 시점 추론 등)이다. 그러나 이러한 인식이 요구되는 과제들은 자연어를 매개로 하기 어렵기 때문에 현재의 멀티모달 LLM들에게 상당한 도전 과제로 작용한다. Blink는 14개의 고전적인 컴퓨터 비전 과제를 3,807개의 객관식 문제로 재구성하고, 단일 또는 다중 이미지와 시각적 프롬프트를 함께 제공한다. 인간은 평균 95.70%의 정확도를 보이는 반면, Blink는 기존 멀티모달 LLM들에게 놀라울 정도로 어려운 과제로 나타났다: 가장 성능이 뛰어난 GPT-4V와 Gemini조차 각각 51.26%와 45.72%의 정확도를 기록하며, 이는 무작위 추측보다 단 13.17%와 7.63% 높은 수준에 불과하다. 이는 최근 멀티모달 LLM들이 아직 그러한 인식 능력을 "발현"하지 못했음을 시사한다. 우리의 분석은 또한 전문적인 컴퓨터 비전 모델이 이러한 문제를 훨씬 더 잘 해결할 수 있음을 강조하며, 이는 향후 개선을 위한 잠재적 경로를 제시한다. 우리는 Blink가 멀티모달 LLM이 인간 수준의 시각 인식에 도달할 수 있도록 커뮤니티를 자극할 것이라고 믿는다.
English
We introduce Blink, a new benchmark for multimodal language models (LLMs) that focuses on core visual perception abilities not found in other evaluations. Most of the Blink tasks can be solved by humans "within a blink" (e.g., relative depth estimation, visual correspondence, forensics detection, and multi-view reasoning). However, we find these perception-demanding tasks cast significant challenges for current multimodal LLMs because they resist mediation through natural language. Blink reformats 14 classic computer vision tasks into 3,807 multiple-choice questions, paired with single or multiple images and visual prompting. While humans get 95.70% accuracy on average, Blink is surprisingly challenging for existing multimodal LLMs: even the best-performing GPT-4V and Gemini achieve accuracies of 51.26% and 45.72%, only 13.17% and 7.63% higher than random guessing, indicating that such perception abilities have not "emerged" yet in recent multimodal LLMs. Our analysis also highlights that specialist CV models could solve these problems much better, suggesting potential pathways for future improvements. We believe Blink will stimulate the community to help multimodal LLMs catch up with human-level visual perception.

Summary

AI-Generated Summary

PDF272December 15, 2024