ChatPaper.aiChatPaper

PRISM-Bench: Een Benchmark voor Puzzelgebaseerde Visuele Taken met CoT-foutdetectie

PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection

October 27, 2025
Auteurs: Yusu Qian, Cheng Wan, Chao Jia, Yinfei Yang, Qingyu Zhao, Zhe Gan
cs.AI

Samenvatting

Wij introduceren PRISM-Bench, een benchmark met op puzzels gebaseerde visuele uitdagingen die is ontworpen om niet alleen te evalueren of modellen problemen kunnen oplossen, maar ook hoe hun redenering verloopt. In tegenstelling tot eerdere evaluaties die alleen de nauwkeurigheid van het eindantwoord meten, introduceert PRISM-Bench een diagnostische taak: gegeven een visuele puzzel en een stapsgewijze 'chain-of-thought' (CoT) die precies één fout bevat, moeten modellen de eerste incorrecte stap identificeren. Deze opzet maakt een gedetailleerde beoordeling mogelijk van logische consistentie, foutdetectie en visueel redeneervermogen. De puzzels in PRISM-Bench vereisen meerstaps symbolisch, geometrisch en analogy-based redeneren, waardoor shortcuts op basis van oppervlakkige patroonherkenning worden tegengegaan. Evaluaties van state-of-the-art MLLM's (Multimodale Large Language Models) tonen een hardnekkige kloof tussen vloeiende generatie en betrouwbaar redeneren: modellen die plausibele CoT's produceren, slagen er vaak niet in eenvoudige logische fouten te lokaliseren. Door het genereren van antwoorden te scheiden van de verificatie van de redenering, biedt PRISM-Bench een scherpere blik op multimodaal redeneervermogen en benadrukt het de noodzaak van diagnostische evaluatieprotocollen bij de ontwikkeling van betrouwbare MLLM's.
English
We introduce PRISM-Bench, a benchmark of puzzle-based visual challenges designed to evaluate not only whether models can solve problems, but how their reasoning unfolds. Unlike prior evaluations that measure only final-answer accuracy, PRISM-Bench introduces a diagnostic task: given a visual puzzle and a step-by-step chain-of-thought (CoT) containing exactly one error, models must identify the first incorrect step. This setting enables fine-grained assessment of logical consistency, error detection, and visual reasoning. The puzzles in PRISM-Bench require multi-step symbolic, geometric, and analogical reasoning, resisting shortcuts based on superficial pattern matching. Evaluations across state-of-the-art MLLMs reveal a persistent gap between fluent generation and faithful reasoning: models that produce plausible CoTs often fail to locate simple logical faults. By disentangling answer generation from reasoning verification, PRISM-Bench offers a sharper lens on multimodal reasoning competence and underscores the need for diagnostic evaluation protocols in the development of trustworthy MLLMs.
PDF52December 31, 2025