PRISM-Bench: Ein Benchmark für rätselbasierte visuelle Aufgaben mit Fehlererkennung in Denkketten

papers.abstract

Wir stellen PRISM-Bench vor, einen Benchmark für rätselbasierte visuelle Herausforderungen, der nicht nur bewertet, ob Modelle Probleme lösen können, sondern auch, wie sich ihre Schlussfolgerungen entfalten. Im Gegensatz zu früheren Evaluationen, die nur die Endantwort-Genauigkeit messen, führt PRISM-Bench eine diagnostische Aufgabe ein: Bei einem visuellen Rätsel und einer schrittweisen Gedankenkette (Chain-of-Thought, CoT), die genau einen Fehler enthält, müssen Modelle den ersten inkorrekten Schritt identifizieren. Dieser Aufbau ermöglicht eine feinkörnige Bewertung von logischer Konsistenz, Fehlererkennung und visuellem Reasoning. Die Rätsel in PRISM-Bench erfordern mehrstufiges symbolisches, geometrisches und analogisches Schließen und widersetzen sich Abkürzungen, die auf oberflächlichem Pattern-Matching basieren. Evaluationen mit modernsten MLLMs zeigen eine anhaltende Lücke zwischen flüssiger Generierung und zuverlässigem Reasoning: Modelle, die plausible Gedankengänge produzieren, scheitern oft daran, einfache logische Fehler zu lokalisieren. Indem PRISM-Bench die Antwortgenerierung von der Reasoning-Überprüfung entkoppelt, bietet es eine präzisere Betrachtung multimodaler Reasoning-Kompetenz und unterstreicht die Notwendigkeit diagnostischer Evaluationsprotokolle für die Entwicklung vertrauenswürdiger MLLMs.

English

We introduce PRISM-Bench, a benchmark of puzzle-based visual challenges designed to evaluate not only whether models can solve problems, but how their reasoning unfolds. Unlike prior evaluations that measure only final-answer accuracy, PRISM-Bench introduces a diagnostic task: given a visual puzzle and a step-by-step chain-of-thought (CoT) containing exactly one error, models must identify the first incorrect step. This setting enables fine-grained assessment of logical consistency, error detection, and visual reasoning. The puzzles in PRISM-Bench require multi-step symbolic, geometric, and analogical reasoning, resisting shortcuts based on superficial pattern matching. Evaluations across state-of-the-art MLLMs reveal a persistent gap between fluent generation and faithful reasoning: models that produce plausible CoTs often fail to locate simple logical faults. By disentangling answer generation from reasoning verification, PRISM-Bench offers a sharper lens on multimodal reasoning competence and underscores the need for diagnostic evaluation protocols in the development of trustworthy MLLMs.

PRISM-Bench: Ein Benchmark für rätselbasierte visuelle Aufgaben mit Fehlererkennung in Denkketten

PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection

papers.abstract

Support