PRISM-Bench: Un Benchmark di Compiti Visivi Basati su Enigmi con Rilevamento di Errori nel Ragionamento a Catena

Abstract

Introduciamo PRISM-Bench, un benchmark di sfide visive basate su enigmi progettato per valutare non solo se i modelli sono in grado di risolvere i problemi, ma anche come si svolge il loro ragionamento. A differenza delle valutazioni precedenti che misurano solo l'accuratezza della risposta finale, PRISM-Bench introduce un compito diagnostico: dato un enigma visivo e una catena di pensiero (CoT) passo-passo che contiene esattamente un errore, i modelli devono identificare il primo passo errato. Questa impostazione consente una valutazione granulare della coerenza logica, del rilevamento degli errori e del ragionamento visivo. Gli enigmi in PRISM-Bench richiedono un ragionamento simbolico, geometrico e analogico multi-step, resistendo a scorciatoie basate su corrispondenze superficiali di pattern. Le valutazioni su MLLM all'avanguardia rivelano un divario persistente tra generazione fluente e ragionamento fedele: i modelli che producono CoT plausibili spesso non riescono a individuare semplici errori logici. Separando la generazione della risposta dalla verifica del ragionamento, PRISM-Bench offre una lente più nitida sulla competenza del ragionamento multimodale e sottolinea la necessità di protocolli di valutazione diagnostica nello sviluppo di MLLM affidabili.

English

We introduce PRISM-Bench, a benchmark of puzzle-based visual challenges designed to evaluate not only whether models can solve problems, but how their reasoning unfolds. Unlike prior evaluations that measure only final-answer accuracy, PRISM-Bench introduces a diagnostic task: given a visual puzzle and a step-by-step chain-of-thought (CoT) containing exactly one error, models must identify the first incorrect step. This setting enables fine-grained assessment of logical consistency, error detection, and visual reasoning. The puzzles in PRISM-Bench require multi-step symbolic, geometric, and analogical reasoning, resisting shortcuts based on superficial pattern matching. Evaluations across state-of-the-art MLLMs reveal a persistent gap between fluent generation and faithful reasoning: models that produce plausible CoTs often fail to locate simple logical faults. By disentangling answer generation from reasoning verification, PRISM-Bench offers a sharper lens on multimodal reasoning competence and underscores the need for diagnostic evaluation protocols in the development of trustworthy MLLMs.

PRISM-Bench: Un Benchmark di Compiti Visivi Basati su Enigmi con Rilevamento di Errori nel Ragionamento a Catena

PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection

Abstract

Support