PRISMM-Bench: Um Benchmark de Inconsistências Multimodais Fundamentadas em Revisão por Pares
PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies
October 18, 2025
Autores: Lukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin
cs.AI
Resumo
Os Modelos Multimodais de Grande Escala (LMMs) estão sendo cada vez mais aplicados à pesquisa científica, mas ainda não está claro se eles podem compreender e raciocinar de forma confiável sobre a complexidade multimodal dos artigos. Um desafio central reside na detecção e resolução de inconsistências entre texto, figuras, tabelas e equações, problemas que muitas vezes são sutis, específicos do domínio e, em última análise, prejudicam a clareza, a reprodutibilidade e a confiança. Os benchmarks existentes ignoram essa questão, isolando modalidades únicas ou dependendo de erros sintéticos que não capturam a complexidade do mundo real. Apresentamos o PRISMM-Bench (Conjunto de Inconsistências Baseado em Revisão por Pares para Modelos Multimodais), o primeiro benchmark fundamentado em inconsistências reais sinalizadas por revisores em artigos científicos. Por meio de um pipeline de múltiplas etapas que inclui mineração de revisões, filtragem assistida por LLM e verificação humana, curamos 262 inconsistências de 242 artigos. Com base nesse conjunto, projetamos três tarefas: identificação de inconsistências, correção e correspondência de pares, que avaliam a capacidade de um modelo de detectar, corrigir e raciocinar sobre inconsistências em diferentes modalidades. Além disso, para abordar o notório problema de atalhos de escolha única na avaliação de múltipla escolha, onde os modelos exploram padrões de resposta sem realmente entender a pergunta, introduzimos representações de resposta baseadas em JSON estruturado que minimizam vieses linguísticos, reduzindo a dependência de pistas estilísticas superficiais. Avaliamos 21 LMMs líderes, incluindo modelos de grande porte de código aberto (GLM-4.5V 106B, InternVL3 78B) e modelos proprietários (Gemini 2.5 Pro, GPT-5 com alto raciocínio). Os resultados revelam um desempenho surpreendentemente baixo (26,1-54,2%), destacando o desafio do raciocínio científico multimodal e motivando avanços em direção a assistentes científicos confiáveis.
English
Large Multimodal Models (LMMs) are increasingly applied to scientific
research, yet it remains unclear whether they can reliably understand and
reason over the multimodal complexity of papers. A central challenge lies in
detecting and resolving inconsistencies across text, figures, tables, and
equations, issues that are often subtle, domain-specific, and ultimately
undermine clarity, reproducibility, and trust. Existing benchmarks overlook
this issue, either isolating single modalities or relying on synthetic errors
that fail to capture real-world complexity. We introduce PRISMM-Bench
(Peer-Review-sourced Inconsistency Set for Multimodal Models), the first
benchmark grounded in real reviewer-flagged inconsistencies in scientific
papers. Through a multi-stage pipeline of review mining, LLM-assisted filtering
and human verification, we curate 262 inconsistencies from 242 papers. Based on
this set, we design three tasks, namely inconsistency identification, remedy
and pair matching, which assess a model's capacity to detect, correct, and
reason over inconsistencies across different modalities. Furthermore, to
address the notorious problem of choice-only shortcuts in multiple-choice
evaluation, where models exploit answer patterns without truly understanding
the question, we further introduce structured JSON-based answer representations
that minimize linguistic biases by reducing reliance on superficial stylistic
cues. We benchmark 21 leading LMMs, including large open-weight models
(GLM-4.5V 106B, InternVL3 78B) and proprietary models (Gemini 2.5 Pro, GPT-5
with high reasoning). Results reveal strikingly low performance (26.1-54.2%),
underscoring the challenge of multimodal scientific reasoning and motivating
progress towards trustworthy scientific assistants.