ChatPaper.aiChatPaper

PRISMM-Bench : Un Benchmark des Incohérences Multimodales Fondées sur l'Évaluation par les Pairs

PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

October 18, 2025
papers.authors: Lukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin
cs.AI

papers.abstract

Les modèles multimodaux de grande taille (LMMs) sont de plus en plus appliqués à la recherche scientifique, mais il reste incertain s'ils peuvent comprendre et raisonner de manière fiable sur la complexité multimodale des articles scientifiques. Un défi central réside dans la détection et la résolution des incohérences entre le texte, les figures, les tableaux et les équations, des problèmes souvent subtils, spécifiques au domaine, et qui finissent par compromettre la clarté, la reproductibilité et la confiance. Les benchmarks existants négligent cette problématique, soit en isolant des modalités uniques, soit en s'appuyant sur des erreurs synthétiques qui ne capturent pas la complexité réelle. Nous introduisons PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models), le premier benchmark basé sur des incohérences réelles signalées par les relecteurs dans des articles scientifiques. Grâce à un pipeline en plusieurs étapes incluant l'extraction de revues, le filtrage assisté par LLM et la vérification humaine, nous avons compilé 262 incohérences provenant de 242 articles. Sur la base de cet ensemble, nous concevons trois tâches, à savoir l'identification des incohérences, leur correction et l'appariement de paires, qui évaluent la capacité d'un modèle à détecter, corriger et raisonner sur les incohérences entre différentes modalités. De plus, pour résoudre le problème notoire des raccourcis basés sur les choix dans les évaluations à choix multiples, où les modèles exploitent les motifs de réponse sans véritablement comprendre la question, nous introduisons des représentations de réponse structurées en JSON qui minimisent les biais linguistiques en réduisant la dépendance aux indices stylistiques superficiels. Nous évaluons 21 LMMs de pointe, incluant des modèles open-weight de grande taille (GLM-4.5V 106B, InternVL3 78B) et des modèles propriétaires (Gemini 2.5 Pro, GPT-5 avec raisonnement élevé). Les résultats révèlent des performances étonnamment faibles (26,1-54,2 %), soulignant le défi du raisonnement scientifique multimodal et motivant des progrès vers des assistants scientifiques dignes de confiance.
English
Large Multimodal Models (LMMs) are increasingly applied to scientific research, yet it remains unclear whether they can reliably understand and reason over the multimodal complexity of papers. A central challenge lies in detecting and resolving inconsistencies across text, figures, tables, and equations, issues that are often subtle, domain-specific, and ultimately undermine clarity, reproducibility, and trust. Existing benchmarks overlook this issue, either isolating single modalities or relying on synthetic errors that fail to capture real-world complexity. We introduce PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models), the first benchmark grounded in real reviewer-flagged inconsistencies in scientific papers. Through a multi-stage pipeline of review mining, LLM-assisted filtering and human verification, we curate 262 inconsistencies from 242 papers. Based on this set, we design three tasks, namely inconsistency identification, remedy and pair matching, which assess a model's capacity to detect, correct, and reason over inconsistencies across different modalities. Furthermore, to address the notorious problem of choice-only shortcuts in multiple-choice evaluation, where models exploit answer patterns without truly understanding the question, we further introduce structured JSON-based answer representations that minimize linguistic biases by reducing reliance on superficial stylistic cues. We benchmark 21 leading LMMs, including large open-weight models (GLM-4.5V 106B, InternVL3 78B) and proprietary models (Gemini 2.5 Pro, GPT-5 with high reasoning). Results reveal strikingly low performance (26.1-54.2%), underscoring the challenge of multimodal scientific reasoning and motivating progress towards trustworthy scientific assistants.
PDF32October 22, 2025