PRISMM-Bench: Un punto de referencia de inconsistencias multimodales fundamentadas en la revisión por pares
PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies
October 18, 2025
Autores: Lukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin
cs.AI
Resumen
Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) se están aplicando cada vez más en la investigación científica, pero aún no está claro si pueden comprender y razonar de manera confiable sobre la complejidad multimodal de los artículos científicos. Un desafío central radica en detectar y resolver inconsistencias entre texto, figuras, tablas y ecuaciones, problemas que suelen ser sutiles, específicos del dominio y que, en última instancia, socavan la claridad, la reproducibilidad y la confianza. Los puntos de referencia existentes pasan por alto este problema, ya sea aislando modalidades individuales o basándose en errores sintéticos que no capturan la complejidad del mundo real. Presentamos PRISMM-Bench (Conjunto de Inconsistencias Sometidas a Revisión por Pares para Modelos Multimodales), el primer punto de referencia basado en inconsistencias reales señaladas por revisores en artículos científicos. A través de una canalización de múltiples etapas que incluye minería de revisiones, filtrado asistido por LLM y verificación humana, recopilamos 262 inconsistencias de 242 artículos. Basándonos en este conjunto, diseñamos tres tareas: identificación de inconsistencias, remedio y emparejamiento de pares, que evalúan la capacidad de un modelo para detectar, corregir y razonar sobre inconsistencias en diferentes modalidades. Además, para abordar el notorio problema de los atajos de elección única en la evaluación de opción múltiple, donde los modelos explotan patrones de respuesta sin comprender verdaderamente la pregunta, introducimos representaciones de respuestas basadas en JSON estructurado que minimizan los sesgos lingüísticos al reducir la dependencia de indicios estilísticos superficiales. Evaluamos 21 LMMs líderes, incluyendo modelos de gran escala de código abierto (GLM-4.5V 106B, InternVL3 78B) y modelos propietarios (Gemini 2.5 Pro, GPT-5 con alto razonamiento). Los resultados revelan un rendimiento sorprendentemente bajo (26.1-54.2%), subrayando el desafío del razonamiento científico multimodal y motivando el avance hacia asistentes científicos confiables.
English
Large Multimodal Models (LMMs) are increasingly applied to scientific
research, yet it remains unclear whether they can reliably understand and
reason over the multimodal complexity of papers. A central challenge lies in
detecting and resolving inconsistencies across text, figures, tables, and
equations, issues that are often subtle, domain-specific, and ultimately
undermine clarity, reproducibility, and trust. Existing benchmarks overlook
this issue, either isolating single modalities or relying on synthetic errors
that fail to capture real-world complexity. We introduce PRISMM-Bench
(Peer-Review-sourced Inconsistency Set for Multimodal Models), the first
benchmark grounded in real reviewer-flagged inconsistencies in scientific
papers. Through a multi-stage pipeline of review mining, LLM-assisted filtering
and human verification, we curate 262 inconsistencies from 242 papers. Based on
this set, we design three tasks, namely inconsistency identification, remedy
and pair matching, which assess a model's capacity to detect, correct, and
reason over inconsistencies across different modalities. Furthermore, to
address the notorious problem of choice-only shortcuts in multiple-choice
evaluation, where models exploit answer patterns without truly understanding
the question, we further introduce structured JSON-based answer representations
that minimize linguistic biases by reducing reliance on superficial stylistic
cues. We benchmark 21 leading LMMs, including large open-weight models
(GLM-4.5V 106B, InternVL3 78B) and proprietary models (Gemini 2.5 Pro, GPT-5
with high reasoning). Results reveal strikingly low performance (26.1-54.2%),
underscoring the challenge of multimodal scientific reasoning and motivating
progress towards trustworthy scientific assistants.