PRISMM-Bench: 동료 평가 기반 다중모달 불일치 벤치마크
PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies
October 18, 2025
저자: Lukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin
cs.AI
초록
대규모 멀티모달 모델(LMMs)이 과학 연구에 점점 더 많이 적용되고 있지만, 이러한 모델들이 논문의 멀티모달 복잡성을 신뢰할 수 있게 이해하고 추론할 수 있는지는 여전히 불분명합니다. 주요 과제는 텍스트, 그림, 표, 수식 간의 불일치를 탐지하고 해결하는 데 있으며, 이러한 문제는 종종 미묘하고 도메인 특화적이며 궁극적으로 명확성, 재현성, 신뢰를 훼손합니다. 기존 벤치마크는 이 문제를 간과하여 단일 모달리티를 분리하거나 실제 세계의 복잡성을 제대로 반영하지 못하는 합성 오류에 의존합니다. 우리는 PRISMM-Bench(Peer-Review-sourced Inconsistency Set for Multimodal Models)를 소개합니다. 이는 과학 논문에서 실제 리뷰어가 지적한 불일치를 기반으로 한 최초의 벤치마크입니다. 리뷰 마이닝, LLM 지원 필터링 및 인간 검증의 다단계 파이프라인을 통해 242편의 논문에서 262개의 불일치를 선별했습니다. 이를 바탕으로 불일치 식별, 수정 및 쌍 매칭이라는 세 가지 작업을 설계하여 모델이 다양한 모달리티 간의 불일치를 탐지, 수정 및 추론하는 능력을 평가합니다. 또한, 다중 선택 평가에서 모델이 질문을 진정으로 이해하지 않고 답변 패턴을 악용하는 선택 전용 단축키 문제를 해결하기 위해, 언어적 편향을 최소화하고 표면적인 스타일적 단서에 대한 의존을 줄이는 구조화된 JSON 기반 답변 표현을 추가로 도입했습니다. 우리는 GLM-4.5V 106B, InternVL3 78B와 같은 대형 오픈 웨이트 모델과 Gemini 2.5 Pro, 고급 추론 기능을 갖춘 GPT-5와 같은 독점 모델을 포함한 21개의 주요 LMM을 벤치마크했습니다. 결과는 매우 낮은 성능(26.1-54.2%)을 보여주며, 멀티모달 과학 추론의 어려움을 강조하고 신뢰할 수 있는 과학 보조 도구를 향한 진전을 촉구합니다.
English
Large Multimodal Models (LMMs) are increasingly applied to scientific
research, yet it remains unclear whether they can reliably understand and
reason over the multimodal complexity of papers. A central challenge lies in
detecting and resolving inconsistencies across text, figures, tables, and
equations, issues that are often subtle, domain-specific, and ultimately
undermine clarity, reproducibility, and trust. Existing benchmarks overlook
this issue, either isolating single modalities or relying on synthetic errors
that fail to capture real-world complexity. We introduce PRISMM-Bench
(Peer-Review-sourced Inconsistency Set for Multimodal Models), the first
benchmark grounded in real reviewer-flagged inconsistencies in scientific
papers. Through a multi-stage pipeline of review mining, LLM-assisted filtering
and human verification, we curate 262 inconsistencies from 242 papers. Based on
this set, we design three tasks, namely inconsistency identification, remedy
and pair matching, which assess a model's capacity to detect, correct, and
reason over inconsistencies across different modalities. Furthermore, to
address the notorious problem of choice-only shortcuts in multiple-choice
evaluation, where models exploit answer patterns without truly understanding
the question, we further introduce structured JSON-based answer representations
that minimize linguistic biases by reducing reliance on superficial stylistic
cues. We benchmark 21 leading LMMs, including large open-weight models
(GLM-4.5V 106B, InternVL3 78B) and proprietary models (Gemini 2.5 Pro, GPT-5
with high reasoning). Results reveal strikingly low performance (26.1-54.2%),
underscoring the challenge of multimodal scientific reasoning and motivating
progress towards trustworthy scientific assistants.