left|,circlearrowright,text{BUS},right|: Un benchmark multimodale ampio e diversificato per valutare la capacità dei modelli visione-linguaggio di comprendere gli indovinelli rebus
left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles
November 3, 2025
Autori: Trishanu Das, Abhilash Nandy, Khush Bajaj, Deepiha S
cs.AI
Abstract
La comprensione dei rebus (puzzle che utilizzano immagini, simboli e lettere per rappresentare parole o frasi in modo creativo) richiede una varietà di competenze come il riconoscimento delle immagini, le abilità cognitive, il ragionamento basato sul senso comune, il ragionamento a più fasi, i giochi di parole basati su immagini, ecc., rendendo questo un compito impegnativo anche per gli attuali modelli visione-linguaggio. In questo articolo, presentiamo left|,circlearrowright,text{BUS},right|, un benchmark ampio e diversificato di 1.333 rebus in inglese che contiene diversi stili artistici e livelli di difficoltà, distribuiti in 18 categorie come cibo, modi di dire, sport, finanza, intrattenimento, ecc. Proponiamo inoltre RebusDescProgICE, un framework indipendente dal modello che utilizza una combinazione di una descrizione non strutturata e un ragionamento strutturato basato su codice, insieme a una migliore selezione di esempi in-context basata sul ragionamento, migliorando le prestazioni dei modelli visione-linguaggio su left|,circlearrowright,text{BUS},right| del 2,1-4,1% e del 20-30% utilizzando rispettivamente modelli closed-source e open-source rispetto al ragionamento a catena (Chain-of-Thought).
English
Understanding Rebus Puzzles (Rebus Puzzles use pictures, symbols, and letters
to represent words or phrases creatively) requires a variety of skills such as
image recognition, cognitive skills, commonsense reasoning, multi-step
reasoning, image-based wordplay, etc., making this a challenging task for even
current Vision-Language Models. In this paper, we present
left|,circlearrowright,text{BUS},right|, a large and diverse
benchmark of 1,333 English Rebus Puzzles containing different artistic styles
and levels of difficulty, spread across 18 categories such as food, idioms,
sports, finance, entertainment, etc. We also propose RebusDescProgICE, a
model-agnostic framework which uses a combination of an unstructured
description and code-based, structured reasoning, along with better,
reasoning-based in-context example selection, improving the performance of
Vision-Language Models on
left|,circlearrowright,text{BUS},right| by 2.1-4.1% and
20-30% using closed-source and open-source models respectively compared to
Chain-of-Thought Reasoning.