left|,circlearrowright,text{BUS},right|: Um Benchmark Multimodal Amplo e Diversificado para Avaliar a Capacidade de Modelos de Visão e Linguagem de Compreender Charadas Visuais
left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles
November 3, 2025
Autores: Trishanu Das, Abhilash Nandy, Khush Bajaj, Deepiha S
cs.AI
Resumo
A compreensão de quebra-cabeças de rebus (que utilizam imagens, símbolos e letras para representar palavras ou frases de forma criativa) exige uma variedade de competências, como reconhecimento de imagem, capacidades cognitivas, raciocínio de senso comum, raciocínio em múltiplas etapas, trocadilhos visuais, etc., tornando esta uma tarefa desafiadora mesmo para os atuais Modelos de Visão e Linguagem. Neste artigo, apresentamos o |↻BUS|, um benchmark amplo e diversificado com 1.333 quebra-cabeças de rebus em inglês, contendo diferentes estilos artísticos e níveis de dificuldade, distribuídos por 18 categorias, como alimentação, expressões idiomáticas, desporto, finanças, entretenimento, etc. Propomos também o RebusDescProgICE, uma estrutura agnóstica ao modelo que utiliza uma combinação de descrição não estruturada e raciocínio estruturado baseado em código, juntamente com uma melhor seleção de exemplos em contexto baseada no raciocínio, melhorando o desempenho dos Modelos de Visão e Linguagem no |↻BUS| em 2,1-4,1% e 20-30% utilizando modelos de código fechado e de código aberto, respetivamente, em comparação com o Raciocínio em Cadeia.
English
Understanding Rebus Puzzles (Rebus Puzzles use pictures, symbols, and letters
to represent words or phrases creatively) requires a variety of skills such as
image recognition, cognitive skills, commonsense reasoning, multi-step
reasoning, image-based wordplay, etc., making this a challenging task for even
current Vision-Language Models. In this paper, we present
left|,circlearrowright,text{BUS},right|, a large and diverse
benchmark of 1,333 English Rebus Puzzles containing different artistic styles
and levels of difficulty, spread across 18 categories such as food, idioms,
sports, finance, entertainment, etc. We also propose RebusDescProgICE, a
model-agnostic framework which uses a combination of an unstructured
description and code-based, structured reasoning, along with better,
reasoning-based in-context example selection, improving the performance of
Vision-Language Models on
left|,circlearrowright,text{BUS},right| by 2.1-4.1% and
20-30% using closed-source and open-source models respectively compared to
Chain-of-Thought Reasoning.