left|,circlearrowright,text{АВТОБУС},right|: Крупный и разнообразный мультимодальный бенчмарк для оценки способности визуально-языковых моделей понимать ребусы
left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles
November 3, 2025
Авторы: Trishanu Das, Abhilash Nandy, Khush Bajaj, Deepiha S
cs.AI
Аннотация
Понимание ребусов (ребусы используют изображения, символы и буквы для творческого представления слов или фраз) требует разнообразных навыков, таких как распознавание образов, когнитивные способности, здравый смысл, многошаговые рассуждения, словесные игры на основе изображений и т.д., что делает эту задачу сложной даже для современных моделей «визуальный язык-текст». В данной статье мы представляем |,↻,BUS,| — крупный и разнообразный бенчмарк, содержащий 1333 английских ребуса с различными художественными стилями и уровнями сложности, распределенных по 18 категориям, таким как еда, идиомы, спорт, финансы, развлечения и т.д. Мы также предлагаем RebusDescProgICE, модель-агностический фреймворк, который использует комбинацию неструктурированного описания и структурированных рассуждений на основе кода, наряду с улучшенным подбором контекстных примеров на основе рассуждений, что повышает производительность моделей «визуальный язык-текст» на бенчмарке |,↻,BUS,| на 2.1–4.1% и 20–30% при использовании проприетарных и открытых моделей соответственно по сравнению с рассуждениями по цепочке мыслей (Chain-of-Thought).
English
Understanding Rebus Puzzles (Rebus Puzzles use pictures, symbols, and letters
to represent words or phrases creatively) requires a variety of skills such as
image recognition, cognitive skills, commonsense reasoning, multi-step
reasoning, image-based wordplay, etc., making this a challenging task for even
current Vision-Language Models. In this paper, we present
left|,circlearrowright,text{BUS},right|, a large and diverse
benchmark of 1,333 English Rebus Puzzles containing different artistic styles
and levels of difficulty, spread across 18 categories such as food, idioms,
sports, finance, entertainment, etc. We also propose RebusDescProgICE, a
model-agnostic framework which uses a combination of an unstructured
description and code-based, structured reasoning, along with better,
reasoning-based in-context example selection, improving the performance of
Vision-Language Models on
left|,circlearrowright,text{BUS},right| by 2.1-4.1% and
20-30% using closed-source and open-source models respectively compared to
Chain-of-Thought Reasoning.