ChatPaper.aiChatPaper

SIN-Bench: 長文脈マルチモーダル科学インターリーブ文献におけるネイティブなエビデンスチェーンの追跡

SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature

January 15, 2026
著者: Yiming Ren, Junjie Wang, Yuxin Meng, Yihang Shi, Zhiqiang Lin, Ruihang Chu, Yiran Xu, Ziming Li, Yunfei Zhao, Zihan Wang, Yu Qiao, Ruiming Tang, Minghao Liu, Yujiu Yang
cs.AI

要旨

マルチモーダル大規模言語モデルが長編科学論文を真に理解しているか評価することは依然として困難である。回答一致のみを重視する評価指標や合成的「干し草の中の針」テストは、文書内の因果的・証拠連鎖に基づく推論過程を要求せずに回答一致を報いる傾向がある。我々は「海の中の魚」(FITO)パラダイムを提案する。これはモデルが科学文書内で明示的なマルチモーダル証拠連鎖を構築することを要求する。FITOを具体化するため、テキストと図表の自然な交互配置を保持した科学インターリーブコーパスSIN-Dataを構築した。これを基盤に、証拠発見(SIN-Find)、仮説検証(SIN-Verify)、接地QA(SIN-QA)、証拠に基づく要約(SIN-Summary)の4段階タスクから成るSIN-Benchを構築する。さらに「証拠なし、スコアなし」方式を導入し、検証可能なアンカーに基づく予測のみを評価対象とし、証拠の一致度、関連性、論理性を通じて証拠品質を診断する。8つのMLLMによる実験では、接地能力が主要なボトルネックであることが明らかになった。Gemini-3-proが最高の平均総合スコア(0.573)を達成した一方、GPT-5はSIN-QA回答精度(0.767)で最高値を記録したものの、証拠整合型総合スコアでは低く、回答の正確性と追跡可能な支持根拠の間に乖離が生じていることが示された。
English
Evaluating whether multimodal large language models truly understand long-form scientific papers remains challenging: answer-only metrics and synthetic "Needle-In-A-Haystack" tests often reward answer matching without requiring a causal, evidence-linked reasoning trace in the document. We propose the "Fish-in-the-Ocean" (FITO) paradigm, which requires models to construct explicit cross-modal evidence chains within native scientific documents. To operationalize FITO, we build SIN-Data, a scientific interleaved corpus that preserves the native interleaving of text and figures. On top of it, we construct SIN-Bench with four progressive tasks covering evidence discovery (SIN-Find), hypothesis verification (SIN-Verify), grounded QA (SIN-QA), and evidence-anchored synthesis (SIN-Summary). We further introduce "No Evidence, No Score", scoring predictions when grounded to verifiable anchors and diagnosing evidence quality via matching, relevance, and logic. Experiments on eight MLLMs show that grounding is the primary bottleneck: Gemini-3-pro achieves the best average overall score (0.573), while GPT-5 attains the highest SIN-QA answer accuracy (0.767) but underperforms on evidence-aligned overall scores, exposing a gap between correctness and traceable support.
PDF42January 21, 2026