PRISM-Bench: Un Benchmark di Compiti Visivi Basati su Enigmi con Rilevamento di Errori nel Ragionamento a Catena
PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection
October 27, 2025
Autori: Yusu Qian, Cheng Wan, Chao Jia, Yinfei Yang, Qingyu Zhao, Zhe Gan
cs.AI
Abstract
Introduciamo PRISM-Bench, un benchmark di sfide visive basate su enigmi progettato per valutare non solo se i modelli sono in grado di risolvere i problemi, ma anche come si svolge il loro ragionamento. A differenza delle valutazioni precedenti che misurano solo l'accuratezza della risposta finale, PRISM-Bench introduce un compito diagnostico: dato un enigma visivo e una catena di pensiero (CoT) passo-passo che contiene esattamente un errore, i modelli devono identificare il primo passo errato. Questa impostazione consente una valutazione granulare della coerenza logica, del rilevamento degli errori e del ragionamento visivo. Gli enigmi in PRISM-Bench richiedono un ragionamento simbolico, geometrico e analogico multi-step, resistendo a scorciatoie basate su corrispondenze superficiali di pattern. Le valutazioni su MLLM all'avanguardia rivelano un divario persistente tra generazione fluente e ragionamento fedele: i modelli che producono CoT plausibili spesso non riescono a individuare semplici errori logici. Separando la generazione della risposta dalla verifica del ragionamento, PRISM-Bench offre una lente più nitida sulla competenza del ragionamento multimodale e sottolinea la necessità di protocolli di valutazione diagnostica nello sviluppo di MLLM affidabili.
English
We introduce PRISM-Bench, a benchmark of puzzle-based visual
challenges designed to evaluate not only whether models can solve problems, but
how their reasoning unfolds. Unlike prior evaluations that measure only
final-answer accuracy, PRISM-Bench introduces a diagnostic task: given a visual
puzzle and a step-by-step chain-of-thought (CoT) containing exactly one error,
models must identify the first incorrect step. This setting enables
fine-grained assessment of logical consistency, error detection, and visual
reasoning. The puzzles in PRISM-Bench require multi-step symbolic, geometric,
and analogical reasoning, resisting shortcuts based on superficial pattern
matching. Evaluations across state-of-the-art MLLMs reveal a persistent gap
between fluent generation and faithful reasoning: models that produce plausible
CoTs often fail to locate simple logical faults. By disentangling answer
generation from reasoning verification, PRISM-Bench offers a sharper lens on
multimodal reasoning competence and underscores the need for diagnostic
evaluation protocols in the development of trustworthy MLLMs.