SIN-Bench: 장문 컨텍스트 다중모드 과학 인터리브 문헌에서의 본연적 증거 사슬 추적
SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature
January 15, 2026
저자: Yiming Ren, Junjie Wang, Yuxin Meng, Yihang Shi, Zhiqiang Lin, Ruihang Chu, Yiran Xu, Ziming Li, Yunfei Zhao, Zihan Wang, Yu Qiao, Ruiming Tang, Minghao Liu, Yujiu Yang
cs.AI
초록
다중 모드 대규모 언어 모델이 장편 과학 논문을 진정으로 이해하는지 평가하는 것은 여전히 어려운 과제입니다: 답변만을 평가하는 지표와 합성된 '건초 더미 속 바늘 찾기' 테스트는 문서 내 인과적이고 증거에 기반한 추론 흔적을 요구하지 않은 채 답변 일치만을 보상하는 경우가 많습니다. 우리는 모델이 원본 과학 문서 내에서 명시적인 교차 모드 증거 사슬을 구축하도록 요구하는 '바다 속 물고기 찾기(Fish-in-the-Ocean, FITO)' 패러다임을 제안합니다. FITO를 구현하기 위해 본래의 텍스트와 그림의 혼합 구조를 보존하는 과학 혼합 말뭉치(SIN-Data)를 구축했습니다. 이를 기반으로 증거 발견(SIN-Find), 가설 검증(SIN-Verify), 근거 기반 질의응답(SIN-QA), 증거에 기반한 종합(SIN-Summary)이라는 네 가지 점진적 과제를 포함하는 SIN-Bench를 구성했습니다. 또한 '증거 없음, 점수 없음(No Evidence, No Score)' 원칙을 도입하여 검증 가능한 근거에 기반한 예측만 점수화하고, 일치도, 관련성, 논리성을 통해 증거의 질을 진단합니다. 8개 MLLM에 대한 실험 결과, 근거 마련이 주요 병목 현상임을 확인했습니다: Gemini-3-pro가 가장 높은 평균 종합 점수(0.573)를 기록한 반면, GPT-5는 SIN-QA 답변 정확도(0.767)에서 최고 성적을 거두었지만 증거에 기반한 종합 점수에서는 낮은 성능을 보여 정답과 추적 가능한 지원 간 격차를 드러냈습니다.
English
Evaluating whether multimodal large language models truly understand long-form scientific papers remains challenging: answer-only metrics and synthetic "Needle-In-A-Haystack" tests often reward answer matching without requiring a causal, evidence-linked reasoning trace in the document. We propose the "Fish-in-the-Ocean" (FITO) paradigm, which requires models to construct explicit cross-modal evidence chains within native scientific documents. To operationalize FITO, we build SIN-Data, a scientific interleaved corpus that preserves the native interleaving of text and figures. On top of it, we construct SIN-Bench with four progressive tasks covering evidence discovery (SIN-Find), hypothesis verification (SIN-Verify), grounded QA (SIN-QA), and evidence-anchored synthesis (SIN-Summary). We further introduce "No Evidence, No Score", scoring predictions when grounded to verifiable anchors and diagnosing evidence quality via matching, relevance, and logic. Experiments on eight MLLMs show that grounding is the primary bottleneck: Gemini-3-pro achieves the best average overall score (0.573), while GPT-5 attains the highest SIN-QA answer accuracy (0.767) but underperforms on evidence-aligned overall scores, exposing a gap between correctness and traceable support.