PRISMM-Bench : Un Benchmark des Incohérences Multimodales Fondées sur l'Évaluation par les Pairs
PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies
October 18, 2025
papers.authors: Lukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin
cs.AI
papers.abstract
Les modèles multimodaux de grande taille (LMMs) sont de plus en plus appliqués à la recherche scientifique, mais il reste incertain s'ils peuvent comprendre et raisonner de manière fiable sur la complexité multimodale des articles scientifiques. Un défi central réside dans la détection et la résolution des incohérences entre le texte, les figures, les tableaux et les équations, des problèmes souvent subtils, spécifiques au domaine, et qui finissent par compromettre la clarté, la reproductibilité et la confiance. Les benchmarks existants négligent cette problématique, soit en isolant des modalités uniques, soit en s'appuyant sur des erreurs synthétiques qui ne capturent pas la complexité réelle. Nous introduisons PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models), le premier benchmark basé sur des incohérences réelles signalées par les relecteurs dans des articles scientifiques. Grâce à un pipeline en plusieurs étapes incluant l'extraction de revues, le filtrage assisté par LLM et la vérification humaine, nous avons compilé 262 incohérences provenant de 242 articles. Sur la base de cet ensemble, nous concevons trois tâches, à savoir l'identification des incohérences, leur correction et l'appariement de paires, qui évaluent la capacité d'un modèle à détecter, corriger et raisonner sur les incohérences entre différentes modalités. De plus, pour résoudre le problème notoire des raccourcis basés sur les choix dans les évaluations à choix multiples, où les modèles exploitent les motifs de réponse sans véritablement comprendre la question, nous introduisons des représentations de réponse structurées en JSON qui minimisent les biais linguistiques en réduisant la dépendance aux indices stylistiques superficiels. Nous évaluons 21 LMMs de pointe, incluant des modèles open-weight de grande taille (GLM-4.5V 106B, InternVL3 78B) et des modèles propriétaires (Gemini 2.5 Pro, GPT-5 avec raisonnement élevé). Les résultats révèlent des performances étonnamment faibles (26,1-54,2 %), soulignant le défi du raisonnement scientifique multimodal et motivant des progrès vers des assistants scientifiques dignes de confiance.
English
Large Multimodal Models (LMMs) are increasingly applied to scientific
research, yet it remains unclear whether they can reliably understand and
reason over the multimodal complexity of papers. A central challenge lies in
detecting and resolving inconsistencies across text, figures, tables, and
equations, issues that are often subtle, domain-specific, and ultimately
undermine clarity, reproducibility, and trust. Existing benchmarks overlook
this issue, either isolating single modalities or relying on synthetic errors
that fail to capture real-world complexity. We introduce PRISMM-Bench
(Peer-Review-sourced Inconsistency Set for Multimodal Models), the first
benchmark grounded in real reviewer-flagged inconsistencies in scientific
papers. Through a multi-stage pipeline of review mining, LLM-assisted filtering
and human verification, we curate 262 inconsistencies from 242 papers. Based on
this set, we design three tasks, namely inconsistency identification, remedy
and pair matching, which assess a model's capacity to detect, correct, and
reason over inconsistencies across different modalities. Furthermore, to
address the notorious problem of choice-only shortcuts in multiple-choice
evaluation, where models exploit answer patterns without truly understanding
the question, we further introduce structured JSON-based answer representations
that minimize linguistic biases by reducing reliance on superficial stylistic
cues. We benchmark 21 leading LMMs, including large open-weight models
(GLM-4.5V 106B, InternVL3 78B) and proprietary models (Gemini 2.5 Pro, GPT-5
with high reasoning). Results reveal strikingly low performance (26.1-54.2%),
underscoring the challenge of multimodal scientific reasoning and motivating
progress towards trustworthy scientific assistants.