ChatPaper.aiChatPaper

left|,circlearrowright,text{BUS},right|: Een grote en diverse multimodale benchmark voor het evalueren van het vermogen van vision-language-modellen om rebuspuzzels te begrijpen

left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles

November 3, 2025
Auteurs: Trishanu Das, Abhilash Nandy, Khush Bajaj, Deepiha S
cs.AI

Samenvatting

Het begrijpen van rebuspuzzels (Rebus Puzzles gebruiken afbeeldingen, symbolen en letters om op creatieve wijze woorden of zinnen weer te geven) vereist diverse vaardigheden, zoals beeldherkenning, cognitieve vaardigheden, gezond verstand redeneren, meerstaps redeneren en op afbeeldingen gebaseerd woordspel. Dit maakt het tot een uitdagende taak, zelfs voor de huidige vision-language modellen. In dit artikel presenteren we |↻BUS|, een grote en diverse benchmark met 1.333 Engelse rebuspuzzels die verschillende artistieke stijlen en moeilijkheidsgraden bevatten, verspreid over 18 categorieën zoals voedsel, uitdrukkingen, sport, financiën en entertainment. We introduceren ook RebusDescProgICE, een model-agnostisch framework dat een combinatie gebruikt van een ongestructureerde beschrijving en code-gebaseerd, gestructureerd redeneren, samen met een betere, op redeneren gebaseerde selectie van in-context voorbeelden. Dit verbetert de prestaties van vision-language modellen op |↻BUS| met 2,1-4,1% en 20-30% bij gebruik van respectievelijk closed-source en open-source modellen, vergeleken met Chain-of-Thought Reasoning.
English
Understanding Rebus Puzzles (Rebus Puzzles use pictures, symbols, and letters to represent words or phrases creatively) requires a variety of skills such as image recognition, cognitive skills, commonsense reasoning, multi-step reasoning, image-based wordplay, etc., making this a challenging task for even current Vision-Language Models. In this paper, we present left|,circlearrowright,text{BUS},right|, a large and diverse benchmark of 1,333 English Rebus Puzzles containing different artistic styles and levels of difficulty, spread across 18 categories such as food, idioms, sports, finance, entertainment, etc. We also propose RebusDescProgICE, a model-agnostic framework which uses a combination of an unstructured description and code-based, structured reasoning, along with better, reasoning-based in-context example selection, improving the performance of Vision-Language Models on left|,circlearrowright,text{BUS},right| by 2.1-4.1% and 20-30% using closed-source and open-source models respectively compared to Chain-of-Thought Reasoning.
PDF121December 2, 2025