ビジュアル・リドル:大規模視覚言語モデルに対する常識と世界知識の挑戦
Visual Riddles: a Commonsense and World Knowledge Challenge for Large Vision and Language Models
July 28, 2024
著者: Nitzan Bitton-Guetta, Aviv Slobodkin, Aviya Maimon, Eliya Habba, Royi Rassin, Yonatan Bitton, Idan Szpektor, Amir Globerson, Yuval Elovici
cs.AI
要旨
誰かが腕をかいているのを見かけたとしよう。その理由を理解するためには、追加の文脈が必要となる。しかし、近くに蚊がいることに気づけば、その人の不快感の理由として即座に納得のいく説明が得られ、それ以上の情報を必要としなくなる。この例は、微妙な視覚的手掛かりが私たちの認知能力に挑戦し、視覚的シナリオを解釈することの複雑さを示している。これらのスキルを研究するために、私たちは「Visual Riddles」というベンチマークを提示する。これは、常識や世界知識を必要とする視覚的ななぞなぞにおいて、視覚と言語モデルをテストすることを目的としている。このベンチマークは、400の視覚的ななぞなぞで構成されており、それぞれが様々なテキストから画像を生成するモデルによって作成されたユニークな画像、質問、正解、テキストのヒント、および帰属情報を含んでいる。人間による評価では、既存のモデルは82%の精度を持つ人間のパフォーマンスに大きく遅れをとっており、Gemini-Pro-1.5が40%の精度でトップとなっている。私たちのベンチマークは、評価をスケーラブルにするための自動評価タスクを備えている。これらの発見は、Visual Riddlesが複雑な視覚的シナリオを解釈するための視覚と言語モデルの能力を向上させるための貴重なリソースとしての可能性を強調している。
English
Imagine observing someone scratching their arm; to understand why, additional
context would be necessary. However, spotting a mosquito nearby would
immediately offer a likely explanation for the person's discomfort, thereby
alleviating the need for further information. This example illustrates how
subtle visual cues can challenge our cognitive skills and demonstrates the
complexity of interpreting visual scenarios. To study these skills, we present
Visual Riddles, a benchmark aimed to test vision and language models on visual
riddles requiring commonsense and world knowledge. The benchmark comprises 400
visual riddles, each featuring a unique image created by a variety of
text-to-image models, question, ground-truth answer, textual hint, and
attribution. Human evaluation reveals that existing models lag significantly
behind human performance, which is at 82\% accuracy, with Gemini-Pro-1.5
leading with 40\% accuracy. Our benchmark comes with automatic evaluation tasks
to make assessment scalable. These findings underscore the potential of Visual
Riddles as a valuable resource for enhancing vision and language models'
capabilities in interpreting complex visual scenarios.Summary
AI-Generated Summary