left|,circlearrowright,text{BUS},right| : Un vaste benchmark multimodal et diversifié pour évaluer la capacité des modèles vision-langage à comprendre les rébus
left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles
November 3, 2025
papers.authors: Trishanu Das, Abhilash Nandy, Khush Bajaj, Deepiha S
cs.AI
papers.abstract
La compréhension des rébus (qui utilisent des images, symboles et lettres pour représenter de manière créative des mots ou phrases) nécessite diverses compétences telles que la reconnaissance d'images, les capacités cognitives, le raisonnement de bon sens, le raisonnement multi-étapes, les jeux de mots visuels, etc., ce qui en fait une tâche difficile même pour les modèles vision-langage actuels. Dans cet article, nous présentons |,↻,BUS,|, un benchmark vaste et diversifié de 1 333 rébus anglais comportant différents styles artistiques et niveaux de difficulté, répartis en 18 catégories telles que nourriture, expressions idiomatiques, sports, finance, divertissement, etc. Nous proposons également RebusDescProgICE, un framework agnostique aux modèles qui combine une description non structurée et un raisonnement structuré basé sur du code, ainsi qu'une meilleure sélection d'exemples en contexte basée sur le raisonnement, améliorant les performances des modèles vision-langage sur |,↻,BUS,| de 2,1 à 4,1 % et de 20 à 30 % avec des modèles propriétaires et open source respectivement, par rapport au raisonnement en chaîne de pensée.
English
Understanding Rebus Puzzles (Rebus Puzzles use pictures, symbols, and letters
to represent words or phrases creatively) requires a variety of skills such as
image recognition, cognitive skills, commonsense reasoning, multi-step
reasoning, image-based wordplay, etc., making this a challenging task for even
current Vision-Language Models. In this paper, we present
left|,circlearrowright,text{BUS},right|, a large and diverse
benchmark of 1,333 English Rebus Puzzles containing different artistic styles
and levels of difficulty, spread across 18 categories such as food, idioms,
sports, finance, entertainment, etc. We also propose RebusDescProgICE, a
model-agnostic framework which uses a combination of an unstructured
description and code-based, structured reasoning, along with better,
reasoning-based in-context example selection, improving the performance of
Vision-Language Models on
left|,circlearrowright,text{BUS},right| by 2.1-4.1% and
20-30% using closed-source and open-source models respectively compared to
Chain-of-Thought Reasoning.