izquierda|,giro↻,texto{BUS},derecha|: Un Benchmark Multimodal Amplio y Diverso para Evaluar la Capacidad de los Modelos de Visión y Lenguaje para Comprender Acertijos Gráficos
left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles
November 3, 2025
Autores: Trishanu Das, Abhilash Nandy, Khush Bajaj, Deepiha S
cs.AI
Resumen
Comprender los acertijos rebus (los acertijos rebus utilizan imágenes, símbolos y letras para representar palabras o frases de manera creativa) requiere una variedad de habilidades, como el reconocimiento de imágenes, las habilidades cognitivas, el razonamiento de sentido común, el razonamiento multi-etapa, los juegos de palabras basados en imágenes, etc., lo que convierte esta tarea en un desafío incluso para los modelos de visión y lenguaje actuales. En este artículo, presentamos |↻BUS|, un benchmark extenso y diverso de 1.333 acertijos rebus en inglés que contiene diferentes estilos artísticos y niveles de dificultad, distribuidos en 18 categorías como comida, modismos, deportes, finanzas, entretenimiento, etc. También proponemos RebusDescProgICE, un marco independiente del modelo que utiliza una combinación de una descripción no estructurada y un razonamiento estructurado basado en código, junto con una mejor selección de ejemplos en contexto basada en el razonamiento, mejorando el rendimiento de los modelos de visión y lenguaje en |↻BUS| entre un 2,1% y un 4,1% y entre un 20% y un 30% utilizando modelos de código cerrado y de código abierto respectivamente, en comparación con el razonamiento en cadena (Chain-of-Thought).
English
Understanding Rebus Puzzles (Rebus Puzzles use pictures, symbols, and letters
to represent words or phrases creatively) requires a variety of skills such as
image recognition, cognitive skills, commonsense reasoning, multi-step
reasoning, image-based wordplay, etc., making this a challenging task for even
current Vision-Language Models. In this paper, we present
left|,circlearrowright,text{BUS},right|, a large and diverse
benchmark of 1,333 English Rebus Puzzles containing different artistic styles
and levels of difficulty, spread across 18 categories such as food, idioms,
sports, finance, entertainment, etc. We also propose RebusDescProgICE, a
model-agnostic framework which uses a combination of an unstructured
description and code-based, structured reasoning, along with better,
reasoning-based in-context example selection, improving the performance of
Vision-Language Models on
left|,circlearrowright,text{BUS},right| by 2.1-4.1% and
20-30% using closed-source and open-source models respectively compared to
Chain-of-Thought Reasoning.