시각적 수수께끼: 대규모 시각 및 언어 모델을 위한 상식과 세계 지식 도전
Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models
July 28, 2024
저자: Nitzan Bitton-Guetta, Aviv Slobodkin, Aviya Maimon, Eliya Habba, Royi Rassin, Yonatan Bitton, Idan Szpektor, Amir Globerson, Yuval Elovici
cs.AI
초록
누군가가 팔을 긁는 것을 관찰한다고 상상해 보자. 그 이유를 이해하기 위해서는 추가적인 맥락이 필요할 것이다. 그러나 근처에 모기가 있는 것을 발견한다면, 그 사람의 불편함에 대한 가능성 높은 설명을 즉시 제공함으로써 더 많은 정보를 필요로 하지 않게 될 것이다. 이 예시는 미묘한 시각적 단서가 우리의 인지 능력에 어떻게 도전하는지 보여주며, 시각적 시나리오를 해석하는 것의 복잡성을 입증한다. 이러한 능력을 연구하기 위해, 우리는 상식과 세계 지식을 요구하는 시각적 수수께끼에 대한 비전과 언어 모델을 테스트하기 위한 벤치마크인 'Visual Riddles'를 제시한다. 이 벤치마크는 다양한 텍스트-이미지 모델로 생성된 독특한 이미지, 질문, 정답, 텍스트 힌트, 그리고 출처를 포함한 400개의 시각적 수수께끼로 구성되어 있다. 인간 평가 결과, 기존 모델들은 82%의 정확도를 보이는 인간의 성능에 크게 뒤처져 있으며, Gemini-Pro-1.5가 40%의 정확도로 선두를 달리고 있다. 우리의 벤치마크는 평가를 확장 가능하게 만들기 위한 자동 평가 작업을 제공한다. 이러한 발견들은 복잡한 시각적 시나리오를 해석하는 데 있어 비전과 언어 모델의 능력을 향상시키기 위한 'Visual Riddles'의 잠재력을 강조한다.
English
Imagine observing someone scratching their arm; to understand why, additional
context would be necessary. However, spotting a mosquito nearby would
immediately offer a likely explanation for the person's discomfort, thereby
alleviating the need for further information. This example illustrates how
subtle visual cues can challenge our cognitive skills and demonstrates the
complexity of interpreting visual scenarios. To study these skills, we present
Visual Riddles, a benchmark aimed to test vision and language models on visual
riddles requiring commonsense and world knowledge. The benchmark comprises 400
visual riddles, each featuring a unique image created by a variety of
text-to-image models, question, ground-truth answer, textual hint, and
attribution. Human evaluation reveals that existing models lag significantly
behind human performance, which is at 82\% accuracy, with Gemini-Pro-1.5
leading with 40\% accuracy. Our benchmark comes with automatic evaluation tasks
to make assessment scalable. These findings underscore the potential of Visual
Riddles as a valuable resource for enhancing vision and language models'
capabilities in interpreting complex visual scenarios.Summary
AI-Generated Summary