ChatPaper.aiChatPaper

left|,circlearrowright,text{BUS},right|: ビジョン言語モデルのレブスパズル理解能力を評価するための大規模で多様なマルチモーダルベンチマーク

left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles

November 3, 2025
著者: Trishanu Das, Abhilash Nandy, Khush Bajaj, Deepiha S
cs.AI

要旨

リバスパズル(絵や記号、文字を駆使して言葉やフレーズを創造的に表現するパズル)を理解するには、画像認識、認知スキル、常識推論、多段階推論、画像に基づく言葉遊びなど多岐にわたる能力が必要であり、これは現在の視覚言語モデルにとっても困難な課題である。本論文では、食、慣用句、スポーツ、金融、エンターテインメントなど18のカテゴリーに跨り、様々な芸術的スタイルと難易度を含む1,333の英語リバスパズルからなる大規模で多様なベンチマーク「|,circlearrowright,text{BUS},|」を提案する。さらに、非構造化された記述とコードベースの構造化推論を組み合わせ、より優れた推論ベースの文脈内例選択を採用するモデル非依存のフレームワーク「RebusDescProgICE」を導入する。これにより、Chain-of-Thought推論と比較して、クローズドソースモデルでは2.1-4.1%、オープンソースモデルでは20-30%の性能向上を「|,circlearrowright,text{BUS},|」において達成した。
English
Understanding Rebus Puzzles (Rebus Puzzles use pictures, symbols, and letters to represent words or phrases creatively) requires a variety of skills such as image recognition, cognitive skills, commonsense reasoning, multi-step reasoning, image-based wordplay, etc., making this a challenging task for even current Vision-Language Models. In this paper, we present left|,circlearrowright,text{BUS},right|, a large and diverse benchmark of 1,333 English Rebus Puzzles containing different artistic styles and levels of difficulty, spread across 18 categories such as food, idioms, sports, finance, entertainment, etc. We also propose RebusDescProgICE, a model-agnostic framework which uses a combination of an unstructured description and code-based, structured reasoning, along with better, reasoning-based in-context example selection, improving the performance of Vision-Language Models on left|,circlearrowright,text{BUS},right| by 2.1-4.1% and 20-30% using closed-source and open-source models respectively compared to Chain-of-Thought Reasoning.
PDF121January 19, 2026