ChatPaper.aiChatPaper

left|,circlearrowright,text{BUS},right|: 비전-언어 모델의 리버스 퍼즐 이해 능력을 평가하기 위한 대규모 다양 멀티모달 벤치마크

left|,circlearrowright,text{BUS},right|: A Large and Diverse Multimodal Benchmark for evaluating the ability of Vision-Language Models to understand Rebus Puzzles

November 3, 2025
저자: Trishanu Das, Abhilash Nandy, Khush Bajaj, Deepiha S
cs.AI

초록

리버스 퍼즐(그림, 기호, 문자를 활용해 단어나 구절을 창의적으로 표현하는 퍼즐)을 이해하기 위해서는 이미지 인식, 인지 능력, 상식 추론, 다단계 추론, 이미지 기반 언어 유희 등 다양한 능력이 필요합니다. 이로 인해 리버스 퍼즐은 최신 시각-언어 모델에게도 어려운 과제입니다. 본 논문에서는 1,333개의 영어 리버스 퍼즐로 구성된 대규모 다양성 벤치마크인 left|,circlearrowright,text{BUS},right|를 소개합니다. 이 벤치마크는 음식, 관용구, 스포츠, 금융, 엔터테인먼트 등 18개 범주에 걸쳐 다양한 예술적 스타일과 난이도로 구성되어 있습니다. 또한 비정형 설명과 코드 기반 구조적 추론을 결합하고, 향상된 추론 기반 in-context 예시 선택을 사용하는 모델 독립적 프레임워크인 RebusDescProgICE를 제안합니다. 이 프레임워크는 Chain-of-Thought 추론 대비 폐쇄형 모델에서는 2.1-4.1%, 오픈소스 모델에서는 20-30% 성능 향상을 left|,circlearrowright,text{BUS},right| 벤치마크에서 달성했습니다.
English
Understanding Rebus Puzzles (Rebus Puzzles use pictures, symbols, and letters to represent words or phrases creatively) requires a variety of skills such as image recognition, cognitive skills, commonsense reasoning, multi-step reasoning, image-based wordplay, etc., making this a challenging task for even current Vision-Language Models. In this paper, we present left|,circlearrowright,text{BUS},right|, a large and diverse benchmark of 1,333 English Rebus Puzzles containing different artistic styles and levels of difficulty, spread across 18 categories such as food, idioms, sports, finance, entertainment, etc. We also propose RebusDescProgICE, a model-agnostic framework which uses a combination of an unstructured description and code-based, structured reasoning, along with better, reasoning-based in-context example selection, improving the performance of Vision-Language Models on left|,circlearrowright,text{BUS},right| by 2.1-4.1% and 20-30% using closed-source and open-source models respectively compared to Chain-of-Thought Reasoning.
PDF121January 19, 2026