left|,circlearrowright,text{BUS},right|: Ein umfangreicher und vielfältiger multimodaler Benchmark zur Bewertung der Fähigkeit von Vision-Language-Modellen, Rebus-Rätsel zu verstehen
left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles
November 3, 2025
papers.authors: Trishanu Das, Abhilash Nandy, Khush Bajaj, Deepiha S
cs.AI
papers.abstract
Das Verständnis von Rebus-Rätseln (Rebus-Puzzles nutzen Bilder, Symbole und Buchstaben, um Wörter oder Phrasen auf kreative Weise darzustellen) erfordert eine Vielzahl von Fähigkeiten wie Bilderkennung, kognitive Fähigkeiten, gesunder Menschenverstand, mehrstufiges logisches Denken, bildbasiertes Wortspiel usw., was dies sogar für aktuelle Vision-Sprach-Modelle zu einer anspruchsvollen Aufgabe macht. In diesem Artikel stellen wir |,↻,BUS,| vor, einen großen und vielfältigen Benchmark mit 1.333 englischen Rebus-Rätseln, die verschiedene künstlerische Stile und Schwierigkeitsgrade umfassen und über 18 Kategorien wie Lebensmittel, Redewendungen, Sport, Finanzen, Unterhaltung usw. verteilt sind. Wir schlagen außerdem RebusDescProgICE vor, ein modellagnostisches Framework, das eine Kombination aus unstrukturierter Beschreibung und codebasierter, strukturierter Argumentation sowie eine verbesserte, auf Argumentation basierende Auswahl von In-Context-Beispielen verwendet. Dies verbessert die Leistung von Vision-Sprach-Modellen auf |,↻,BUS,| um 2,1–4,1 % bzw. 20–30 % bei der Verwendung von Closed-Source- und Open-Source-Modellen im Vergleich zum Chain-of-Thought-Reasoning.
English
Understanding Rebus Puzzles (Rebus Puzzles use pictures, symbols, and letters
to represent words or phrases creatively) requires a variety of skills such as
image recognition, cognitive skills, commonsense reasoning, multi-step
reasoning, image-based wordplay, etc., making this a challenging task for even
current Vision-Language Models. In this paper, we present
left|,circlearrowright,text{BUS},right|, a large and diverse
benchmark of 1,333 English Rebus Puzzles containing different artistic styles
and levels of difficulty, spread across 18 categories such as food, idioms,
sports, finance, entertainment, etc. We also propose RebusDescProgICE, a
model-agnostic framework which uses a combination of an unstructured
description and code-based, structured reasoning, along with better,
reasoning-based in-context example selection, improving the performance of
Vision-Language Models on
left|,circlearrowright,text{BUS},right| by 2.1-4.1% and
20-30% using closed-source and open-source models respectively compared to
Chain-of-Thought Reasoning.