PRISM-Bench: Ein Benchmark für rätselbasierte visuelle Aufgaben mit Fehlererkennung in Denkketten
PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection
October 27, 2025
papers.authors: Yusu Qian, Cheng Wan, Chao Jia, Yinfei Yang, Qingyu Zhao, Zhe Gan
cs.AI
papers.abstract
Wir stellen PRISM-Bench vor, einen Benchmark für rätselbasierte visuelle Herausforderungen, der nicht nur bewertet, ob Modelle Probleme lösen können, sondern auch, wie sich ihre Schlussfolgerungen entfalten. Im Gegensatz zu früheren Evaluationen, die nur die Endantwort-Genauigkeit messen, führt PRISM-Bench eine diagnostische Aufgabe ein: Bei einem visuellen Rätsel und einer schrittweisen Gedankenkette (Chain-of-Thought, CoT), die genau einen Fehler enthält, müssen Modelle den ersten inkorrekten Schritt identifizieren. Dieser Aufbau ermöglicht eine feinkörnige Bewertung von logischer Konsistenz, Fehlererkennung und visuellem Reasoning. Die Rätsel in PRISM-Bench erfordern mehrstufiges symbolisches, geometrisches und analogisches Schließen und widersetzen sich Abkürzungen, die auf oberflächlichem Pattern-Matching basieren. Evaluationen mit modernsten MLLMs zeigen eine anhaltende Lücke zwischen flüssiger Generierung und zuverlässigem Reasoning: Modelle, die plausible Gedankengänge produzieren, scheitern oft daran, einfache logische Fehler zu lokalisieren. Indem PRISM-Bench die Antwortgenerierung von der Reasoning-Überprüfung entkoppelt, bietet es eine präzisere Betrachtung multimodaler Reasoning-Kompetenz und unterstreicht die Notwendigkeit diagnostischer Evaluationsprotokolle für die Entwicklung vertrauenswürdiger MLLMs.
English
We introduce PRISM-Bench, a benchmark of puzzle-based visual
challenges designed to evaluate not only whether models can solve problems, but
how their reasoning unfolds. Unlike prior evaluations that measure only
final-answer accuracy, PRISM-Bench introduces a diagnostic task: given a visual
puzzle and a step-by-step chain-of-thought (CoT) containing exactly one error,
models must identify the first incorrect step. This setting enables
fine-grained assessment of logical consistency, error detection, and visual
reasoning. The puzzles in PRISM-Bench require multi-step symbolic, geometric,
and analogical reasoning, resisting shortcuts based on superficial pattern
matching. Evaluations across state-of-the-art MLLMs reveal a persistent gap
between fluent generation and faithful reasoning: models that produce plausible
CoTs often fail to locate simple logical faults. By disentangling answer
generation from reasoning verification, PRISM-Bench offers a sharper lens on
multimodal reasoning competence and underscores the need for diagnostic
evaluation protocols in the development of trustworthy MLLMs.