PRISM-Bench: 추론 과정 오류 감지를 포함한 퍼즐 기반 시각 과제 벤치마크
PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection
October 27, 2025
저자: Yusu Qian, Cheng Wan, Chao Jia, Yinfei Yang, Qingyu Zhao, Zhe Gan
cs.AI
초록
우리는 모델이 문제를 해결할 수 있는지 여부뿐만 아니라 그 추론 과정이 어떻게 전개되는지 평가하기 위해 설계된 퍼즐 기반 시각적 도전 과제 벤치마크인 PRISM-Bench를 소개한다. 최종 답변 정확도만 측정하는 기존 평가와 달리, PRISM-Bench는 진단 과제를 도입한다: 시각적 퍼즐과 정확히 하나의 오류를 포함하는 단계별 사고의 연쇄(CoT)가 주어졌을 때, 모델은 첫 번째 잘못된 단계를 식별해야 한다. 이 설정을 통해 논리적 일관성, 오류 탐지 및 시각적 추론에 대한 세밀한 평가가 가능하다. PRISM-Bench의 퍼즐들은 다단계의 기호적, 기하학적, 유추적 추론을 필요로 하여 표면적인 패턴 매칭에 기반한 지름길을 차단한다. 최첨단 MLLM(Multimodal Large Language Model)들을 대상으로 한 평가를 통해, 유창한 생성 능력과 신뢰할 수 있는 추론 능력 사이에 지속적인 격차가 있음이 드러난다: 그럴듯한 CoT를 생성하는 모델들조차 단순한 논리적 오류를 찾아내지 못하는 경우가 많다. 답변 생성과 추론 검증을 분리함으로써, PRISM-Bench는 멀티모달 추론 능력에 대한 더 선명한 통찰을 제공하며 신뢰할 수 있는 MLLM 개발을 위해 진단적 평가 프로토콜의 필요성을 강조한다.
English
We introduce PRISM-Bench, a benchmark of puzzle-based visual
challenges designed to evaluate not only whether models can solve problems, but
how their reasoning unfolds. Unlike prior evaluations that measure only
final-answer accuracy, PRISM-Bench introduces a diagnostic task: given a visual
puzzle and a step-by-step chain-of-thought (CoT) containing exactly one error,
models must identify the first incorrect step. This setting enables
fine-grained assessment of logical consistency, error detection, and visual
reasoning. The puzzles in PRISM-Bench require multi-step symbolic, geometric,
and analogical reasoning, resisting shortcuts based on superficial pattern
matching. Evaluations across state-of-the-art MLLMs reveal a persistent gap
between fluent generation and faithful reasoning: models that produce plausible
CoTs often fail to locate simple logical faults. By disentangling answer
generation from reasoning verification, PRISM-Bench offers a sharper lens on
multimodal reasoning competence and underscores the need for diagnostic
evaluation protocols in the development of trustworthy MLLMs.