ChatPaper.aiChatPaper

SIN-Bench: Трассировка цепочек нативных доказательств в длинноконтекстной мультимодальной чередующейся научной литературе

SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature

January 15, 2026
Авторы: Yiming Ren, Junjie Wang, Yuxin Meng, Yihang Shi, Zhiqiang Lin, Ruihang Chu, Yiran Xu, Ziming Li, Yunfei Zhao, Zihan Wang, Yu Qiao, Ruiming Tang, Minghao Liu, Yujiu Yang
cs.AI

Аннотация

Оценка того, действительно ли мультимодальные большие языковые модели понимают объемные научные работы, остается сложной задачей: метрики, ориентированные только на ответ, и синтетические тесты «Иголка в стоге сена» часто поощряют совпадение ответов, не требуя причинно-следственных, связанных с доказательствами цепочек рассуждений в документе. Мы предлагаем парадигму «Рыба в океане» (FITO), которая требует от моделей построения явных кросс-модальных цепочек доказательств в рамках исходных научных документов. Для реализации FITO мы создали SIN-Data — научный интреливированный корпус, сохраняющий исходное чередование текста и рисунков. На его основе мы построили SIN-Bench с четырьмя прогрессивными задачами: обнаружение доказательств (SIN-Find), проверка гипотез (SIN-Verify), обоснованный вопросно-ответный режим (SIN-QA) и синтез, привязанный к доказательствам (SIN-Summary). Мы также вводим принцип «Нет доказательств — нет балла», оценивая предсказания только при их привязке к проверяемым якорям и диагностируя качество доказательств через соответствие, релевантность и логику. Эксперименты на восьми MLLM показывают, что обоснованность является основным узким местом: Gemini-3-pro демонстрирует наилучший средний общий балл (0.573), в то время как GPT-5 достигает наивысшей точности ответов в SIN-QA (0.767), но показывает худшие результаты по общим баллам, зависящим от доказательств, что выявляет разрыв между правильностью и проверяемой обоснованностью.
English
Evaluating whether multimodal large language models truly understand long-form scientific papers remains challenging: answer-only metrics and synthetic "Needle-In-A-Haystack" tests often reward answer matching without requiring a causal, evidence-linked reasoning trace in the document. We propose the "Fish-in-the-Ocean" (FITO) paradigm, which requires models to construct explicit cross-modal evidence chains within native scientific documents. To operationalize FITO, we build SIN-Data, a scientific interleaved corpus that preserves the native interleaving of text and figures. On top of it, we construct SIN-Bench with four progressive tasks covering evidence discovery (SIN-Find), hypothesis verification (SIN-Verify), grounded QA (SIN-QA), and evidence-anchored synthesis (SIN-Summary). We further introduce "No Evidence, No Score", scoring predictions when grounded to verifiable anchors and diagnosing evidence quality via matching, relevance, and logic. Experiments on eight MLLMs show that grounding is the primary bottleneck: Gemini-3-pro achieves the best average overall score (0.573), while GPT-5 attains the highest SIN-QA answer accuracy (0.767) but underperforms on evidence-aligned overall scores, exposing a gap between correctness and traceable support.
PDF42January 21, 2026