PRISMM-Bench: Un Benchmark delle Incoerenze Multimodali Basate sulla Revisione Paritaria
PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies
October 18, 2025
Autori: Lukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin
cs.AI
Abstract
I Large Multimodal Models (LMMs) sono sempre più applicati alla ricerca scientifica, ma rimane incerto se possano comprendere e ragionare in modo affidabile sulla complessità multimodale dei paper. Una sfida centrale risiede nel rilevare e risolvere le incongruenze tra testo, figure, tabelle ed equazioni, problemi che sono spesso sottili, specifici del dominio e che alla fine minano chiarezza, riproducibilità e fiducia. I benchmark esistenti trascurano questo problema, isolando singole modalità o basandosi su errori sintetici che non catturano la complessità del mondo reale. Introduciamo PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models), il primo benchmark basato su incongruenze segnalate dai revisori in paper scientifici. Attraverso una pipeline multi-fase di estrazione delle revisioni, filtraggio assistito da LLM e verifica umana, curiamo 262 incongruenze da 242 paper. Sulla base di questo set, progettiamo tre task: identificazione delle incongruenze, correzione e abbinamento di coppie, che valutano la capacità di un modello di rilevare, correggere e ragionare sulle incongruenze tra diverse modalità. Inoltre, per affrontare il noto problema delle scorciatoie basate sulla scelta nelle valutazioni a scelta multipla, in cui i modelli sfruttano i pattern delle risposte senza comprendere veramente la domanda, introduciamo rappresentazioni delle risposte strutturate in JSON che minimizzano i bias linguistici riducendo la dipendenza da indizi stilistici superficiali. Testiamo 21 LMM leader, inclusi modelli open-weight di grandi dimensioni (GLM-4.5V 106B, InternVL3 78B) e modelli proprietari (Gemini 2.5 Pro, GPT-5 con alto ragionamento). I risultati rivelano prestazioni sorprendentemente basse (26,1-54,2%), sottolineando la sfida del ragionamento scientifico multimodale e stimolando progressi verso assistenti scientifici affidabili.
English
Large Multimodal Models (LMMs) are increasingly applied to scientific
research, yet it remains unclear whether they can reliably understand and
reason over the multimodal complexity of papers. A central challenge lies in
detecting and resolving inconsistencies across text, figures, tables, and
equations, issues that are often subtle, domain-specific, and ultimately
undermine clarity, reproducibility, and trust. Existing benchmarks overlook
this issue, either isolating single modalities or relying on synthetic errors
that fail to capture real-world complexity. We introduce PRISMM-Bench
(Peer-Review-sourced Inconsistency Set for Multimodal Models), the first
benchmark grounded in real reviewer-flagged inconsistencies in scientific
papers. Through a multi-stage pipeline of review mining, LLM-assisted filtering
and human verification, we curate 262 inconsistencies from 242 papers. Based on
this set, we design three tasks, namely inconsistency identification, remedy
and pair matching, which assess a model's capacity to detect, correct, and
reason over inconsistencies across different modalities. Furthermore, to
address the notorious problem of choice-only shortcuts in multiple-choice
evaluation, where models exploit answer patterns without truly understanding
the question, we further introduce structured JSON-based answer representations
that minimize linguistic biases by reducing reliance on superficial stylistic
cues. We benchmark 21 leading LMMs, including large open-weight models
(GLM-4.5V 106B, InternVL3 78B) and proprietary models (Gemini 2.5 Pro, GPT-5
with high reasoning). Results reveal strikingly low performance (26.1-54.2%),
underscoring the challenge of multimodal scientific reasoning and motivating
progress towards trustworthy scientific assistants.