PRISM-Bench : Un Benchmark de Tâches Visuelles Basées sur des Puzzles avec Détection d'Erreurs de Chaînage de Raisonnement
PRISM-Bench: A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection
October 27, 2025
papers.authors: Yusu Qian, Cheng Wan, Chao Jia, Yinfei Yang, Qingyu Zhao, Zhe Gan
cs.AI
papers.abstract
Nous présentons PRISM-Bench, un benchmark d'énigmes visuelles conçu pour évaluer non seulement la capacité des modèles à résoudre des problèmes, mais aussi le déroulement de leur raisonnement. Contrairement aux évaluations antérieures qui ne mesuraient que la précision de la réponse finale, PRISM-Bench introduit une tâche diagnostique : face à une énigme visuelle et un enchaînement pas-à-pas de raisonnement (chain-of-thought, CoT) contenant exactement une erreur, les modèles doivent identifier la première étape incorrecte. Ce cadre permet une évaluation fine de la cohérence logique, de la détection d'erreurs et du raisonnement visuel. Les énigmes de PRISM-Bench nécessitent un raisonnement symbolique, géométrique et analogique en plusieurs étapes, résistant aux raccourcis basés sur une correspondance superficielle de motifs. Les évaluations sur les MLLM (Modèles de Langage Multimodaux) les plus avancés révèlent un écart persistant entre la génération fluide et le raisonnement fidèle : les modèles qui produisent des CoT plausibles échouent souvent à localiser des fautes logiques simples. En dissociant la génération de réponses de la vérification du raisonnement, PRISM-Bench offre une perspective plus précise sur les compétences en raisonnement multimodal et souligne la nécessité de protocoles d'évaluation diagnostique dans le développement de MLLM dignes de confiance.
English
We introduce PRISM-Bench, a benchmark of puzzle-based visual
challenges designed to evaluate not only whether models can solve problems, but
how their reasoning unfolds. Unlike prior evaluations that measure only
final-answer accuracy, PRISM-Bench introduces a diagnostic task: given a visual
puzzle and a step-by-step chain-of-thought (CoT) containing exactly one error,
models must identify the first incorrect step. This setting enables
fine-grained assessment of logical consistency, error detection, and visual
reasoning. The puzzles in PRISM-Bench require multi-step symbolic, geometric,
and analogical reasoning, resisting shortcuts based on superficial pattern
matching. Evaluations across state-of-the-art MLLMs reveal a persistent gap
between fluent generation and faithful reasoning: models that produce plausible
CoTs often fail to locate simple logical faults. By disentangling answer
generation from reasoning verification, PRISM-Bench offers a sharper lens on
multimodal reasoning competence and underscores the need for diagnostic
evaluation protocols in the development of trustworthy MLLMs.