ChatPaper.aiChatPaper

PRISMM-Bench: ピアレビューに基づくマルチモーダル不整合のベンチマーク

PRISMM-Bench: A Benchmark of Peer-Review Grounded Multimodal Inconsistencies

October 18, 2025
著者: Lukas Selch, Yufang Hou, M. Jehanzeb Mirza, Sivan Doveh, James Glass, Rogerio Feris, Wei Lin
cs.AI

要旨

大規模マルチモーダルモデル(LMMs)は科学研究にますます応用されているが、論文のマルチモーダルな複雑性を確実に理解し推論できるかどうかは依然として不明である。中心的な課題は、テキスト、図、表、数式にわたる不整合を検出し解決することであり、これらの問題はしばしば微妙で分野固有であり、最終的には明確性、再現性、信頼性を損なう。既存のベンチマークはこの問題を見落としており、単一のモダリティを分離するか、現実世界の複雑性を捉えられない人工的なエラーに依存している。我々はPRISMM-Bench(Peer-Review-sourced Inconsistency Set for Multimodal Models)を導入する。これは、科学論文における実際の査読者指摘の不整合に基づいた初のベンチマークである。査読データのマイニング、LLM支援のフィルタリング、人間による検証を経た多段階のパイプラインを通じて、242本の論文から262の不整合を精選した。このセットに基づき、不整合の識別、修正、ペアマッチングの3つのタスクを設計し、モデルが異なるモダリティにわたる不整合を検出し、修正し、推論する能力を評価する。さらに、多肢選択評価における選択肢のみのショートカットという有名な問題(モデルが質問を真に理解せずに回答パターンを利用する)に対処するため、言語的バイアスを最小化する構造化されたJSONベースの回答表現を導入し、表面的なスタイルの手がかりへの依存を減らす。21の主要なLMMs(大規模オープンウェイトモデル:GLM-4.5V 106B、InternVL3 78B、およびプロプライエタリモデル:Gemini 2.5 Pro、高推論能力を持つGPT-5)をベンチマークした結果、驚くほど低い性能(26.1-54.2%)が明らかになり、マルチモーダル科学推論の課題が浮き彫りとなり、信頼できる科学アシスタントに向けた進歩が促された。
English
Large Multimodal Models (LMMs) are increasingly applied to scientific research, yet it remains unclear whether they can reliably understand and reason over the multimodal complexity of papers. A central challenge lies in detecting and resolving inconsistencies across text, figures, tables, and equations, issues that are often subtle, domain-specific, and ultimately undermine clarity, reproducibility, and trust. Existing benchmarks overlook this issue, either isolating single modalities or relying on synthetic errors that fail to capture real-world complexity. We introduce PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models), the first benchmark grounded in real reviewer-flagged inconsistencies in scientific papers. Through a multi-stage pipeline of review mining, LLM-assisted filtering and human verification, we curate 262 inconsistencies from 242 papers. Based on this set, we design three tasks, namely inconsistency identification, remedy and pair matching, which assess a model's capacity to detect, correct, and reason over inconsistencies across different modalities. Furthermore, to address the notorious problem of choice-only shortcuts in multiple-choice evaluation, where models exploit answer patterns without truly understanding the question, we further introduce structured JSON-based answer representations that minimize linguistic biases by reducing reliance on superficial stylistic cues. We benchmark 21 leading LMMs, including large open-weight models (GLM-4.5V 106B, InternVL3 78B) and proprietary models (Gemini 2.5 Pro, GPT-5 with high reasoning). Results reveal strikingly low performance (26.1-54.2%), underscoring the challenge of multimodal scientific reasoning and motivating progress towards trustworthy scientific assistants.
PDF32October 22, 2025