PRISMM-Bench: Ein Benchmark für multimodale Inkonsistenzen auf Basis von Peer-Review
PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies
October 18, 2025
papers.authors: Lukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin
cs.AI
papers.abstract
Große multimodale Modelle (LMMs) werden zunehmend in der wissenschaftlichen Forschung eingesetzt, doch es bleibt unklar, ob sie die multimodale Komplexität von Fachartikeln zuverlässig verstehen und darüber schlussfolgern können. Eine zentrale Herausforderung besteht darin, Inkonsistenzen zwischen Text, Abbildungen, Tabellen und Gleichungen zu erkennen und zu beheben – Probleme, die oft subtil, domänenspezifisch sind und letztlich Klarheit, Reproduzierbarkeit und Vertrauen untergraben. Bestehende Benchmarks übersehen dieses Problem, indem sie entweder einzelne Modalitäten isolieren oder sich auf synthetische Fehler stützen, die die reale Komplexität nicht erfassen. Wir stellen PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models) vor, den ersten Benchmark, der auf echten, von Gutachtern beanstandeten Inkonsistenzen in wissenschaftlichen Artikeln basiert. Durch eine mehrstufige Pipeline aus Review-Mining, LLM-gestützter Filterung und menschlicher Überprüfung haben wir 262 Inkonsistenzen aus 242 Artikeln zusammengestellt. Auf dieser Grundlage entwerfen wir drei Aufgaben: Inkonsistenzidentifikation, -behebung und Paarzuordnung, die die Fähigkeit eines Modells bewerten, Inkonsistenzen über verschiedene Modalitäten hinweg zu erkennen, zu korrigieren und darüber zu schlussfolgern. Darüber hinaus führen wir strukturierte JSON-basierte Antwortdarstellungen ein, um das bekannte Problem von Auswahlverknüpfungen in Multiple-Choice-Evaluierungen zu adressieren, bei denen Modelle Antwortmuster ausnutzen, ohne die Frage wirklich zu verstehen. Diese Darstellungen minimieren linguistische Verzerrungen, indem sie die Abhängigkeit von oberflächlichen stilistischen Hinweisen reduzieren. Wir benchmarken 21 führende LMMs, darunter große Open-Weight-Modelle (GLM-4.5V 106B, InternVL3 78B) und proprietäre Modelle (Gemini 2.5 Pro, GPT-5 mit hoher Schlussfolgerungsfähigkeit). Die Ergebnisse zeigen eine auffallend niedrige Leistung (26,1–54,2 %), was die Herausforderung des multimodalen wissenschaftlichen Denkens unterstreicht und Fortschritte hin zu vertrauenswürdigen wissenschaftlichen Assistenten motiviert.
English
Large Multimodal Models (LMMs) are increasingly applied to scientific
research, yet it remains unclear whether they can reliably understand and
reason over the multimodal complexity of papers. A central challenge lies in
detecting and resolving inconsistencies across text, figures, tables, and
equations, issues that are often subtle, domain-specific, and ultimately
undermine clarity, reproducibility, and trust. Existing benchmarks overlook
this issue, either isolating single modalities or relying on synthetic errors
that fail to capture real-world complexity. We introduce PRISMM-Bench
(Peer-Review-sourced Inconsistency Set for Multimodal Models), the first
benchmark grounded in real reviewer-flagged inconsistencies in scientific
papers. Through a multi-stage pipeline of review mining, LLM-assisted filtering
and human verification, we curate 262 inconsistencies from 242 papers. Based on
this set, we design three tasks, namely inconsistency identification, remedy
and pair matching, which assess a model's capacity to detect, correct, and
reason over inconsistencies across different modalities. Furthermore, to
address the notorious problem of choice-only shortcuts in multiple-choice
evaluation, where models exploit answer patterns without truly understanding
the question, we further introduce structured JSON-based answer representations
that minimize linguistic biases by reducing reliance on superficial stylistic
cues. We benchmark 21 leading LMMs, including large open-weight models
(GLM-4.5V 106B, InternVL3 78B) and proprietary models (Gemini 2.5 Pro, GPT-5
with high reasoning). Results reveal strikingly low performance (26.1-54.2%),
underscoring the challenge of multimodal scientific reasoning and motivating
progress towards trustworthy scientific assistants.