PRISMM-Bench: Een Benchmark voor Peer-Review-Gegronde Multimodale Inconsistenties
PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies
October 18, 2025
Auteurs: Lukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin
cs.AI
Samenvatting
Grote Multimodale Modellen (LMMs) worden steeds vaker toegepast in wetenschappelijk onderzoek, maar het blijft onduidelijk of ze betrouwbaar de multimodale complexiteit van papers kunnen begrijpen en erover kunnen redeneren. Een centrale uitdaging ligt in het detecteren en oplossen van inconsistenties tussen tekst, figuren, tabellen en vergelijkingen, problemen die vaak subtiel, domeinspecifiek zijn en uiteindelijk de duidelijkheid, reproduceerbaarheid en betrouwbaarheid ondermijnen. Bestaande benchmarks negeren dit probleem, door ofwel afzonderlijke modaliteiten te isoleren of te vertrouwen op synthetische fouten die de complexiteit van de echte wereld niet vatten. We introduceren PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models), de eerste benchmark die gebaseerd is op echte inconsistenties die door reviewers in wetenschappelijke papers zijn gemeld. Via een meerfasenpijplijn van review-mining, LLM-ondersteunde filtering en menselijke verificatie, hebben we 262 inconsistenties uit 242 papers samengesteld. Op basis van deze set hebben we drie taken ontworpen, namelijk inconsistentie-identificatie, herstel en paar-matching, die het vermogen van een model beoordelen om inconsistenties tussen verschillende modaliteiten te detecteren, te corrigeren en erover te redeneren. Verder introduceren we, om het beruchte probleem van keuze-only shortcuts in meerkeuzeevaluatie aan te pakken, waarbij modellen antwoordpatronen uitbuiten zonder de vraag echt te begrijpen, gestructureerde JSON-gebaseerde antwoordrepresentaties die linguïstische vooroordelen minimaliseren door de afhankelijkheid van oppervlakkige stilistische aanwijzingen te verminderen. We benchmarken 21 toonaangevende LMMs, waaronder grote open-weight modellen (GLM-4.5V 106B, InternVL3 78B) en propriëtaire modellen (Gemini 2.5 Pro, GPT-5 met hoog redeneervermogen). De resultaten tonen opvallend lage prestaties (26,1-54,2%), wat de uitdaging van multimodaal wetenschappelijk redeneren benadrukt en vooruitgang richting betrouwbare wetenschappelijke assistenten motiveert.
English
Large Multimodal Models (LMMs) are increasingly applied to scientific
research, yet it remains unclear whether they can reliably understand and
reason over the multimodal complexity of papers. A central challenge lies in
detecting and resolving inconsistencies across text, figures, tables, and
equations, issues that are often subtle, domain-specific, and ultimately
undermine clarity, reproducibility, and trust. Existing benchmarks overlook
this issue, either isolating single modalities or relying on synthetic errors
that fail to capture real-world complexity. We introduce PRISMM-Bench
(Peer-Review-sourced Inconsistency Set for Multimodal Models), the first
benchmark grounded in real reviewer-flagged inconsistencies in scientific
papers. Through a multi-stage pipeline of review mining, LLM-assisted filtering
and human verification, we curate 262 inconsistencies from 242 papers. Based on
this set, we design three tasks, namely inconsistency identification, remedy
and pair matching, which assess a model's capacity to detect, correct, and
reason over inconsistencies across different modalities. Furthermore, to
address the notorious problem of choice-only shortcuts in multiple-choice
evaluation, where models exploit answer patterns without truly understanding
the question, we further introduce structured JSON-based answer representations
that minimize linguistic biases by reducing reliance on superficial stylistic
cues. We benchmark 21 leading LMMs, including large open-weight models
(GLM-4.5V 106B, InternVL3 78B) and proprietary models (Gemini 2.5 Pro, GPT-5
with high reasoning). Results reveal strikingly low performance (26.1-54.2%),
underscoring the challenge of multimodal scientific reasoning and motivating
progress towards trustworthy scientific assistants.