ChatPaper.aiChatPaper

SIN-Bench: Verfolgung nativer Evidenzketten in langkontextiger multimodaler, verschachtelter wissenschaftlicher Literatur

SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature

January 15, 2026
papers.authors: Yiming Ren, Junjie Wang, Yuxin Meng, Yihang Shi, Zhiqiang Lin, Ruihang Chu, Yiran Xu, Ziming Li, Yunfei Zhao, Zihan Wang, Yu Qiao, Ruiming Tang, Minghao Liu, Yujiu Yang
cs.AI

papers.abstract

Die Bewertung, ob multimodale große Sprachmodelle tiefgehendes Verständnis für längere wissenschaftliche Arbeiten entwickeln, bleibt eine Herausforderung: reine Antwortmetriken und synthetische „Nadel-im-Heuhaufen“-Tests belohnen oft das Abgleichen von Antworten, ohne eine kausale, evidenzverknüpfte Argumentationskette im Dokument zu erfordern. Wir schlagen das „Fisch-im-Ozean“-Paradigma (FITO) vor, das von Modellen verlangt, explizite cross-modale Evidenzketten innerhalb originaler wissenschaftlicher Dokumente zu konstruieren. Um FITO zu operationalisieren, erstellen wir SIN-Data, einen wissenschaftlichen, verschachtelten Korpus, der die native Verzahnung von Text und Abbildungen bewahrt. Darauf aufbauend entwickeln wir SIN-Bench mit vier progressiven Aufgaben: Evidenzentdeckung (SIN-Find), Hypothesenverifikation (SIN-Verify), begründetes Frage-Antworten (SIN-QA) und evidenzgestützte Synthese (SIN-Summary). Weiter führen wir „Keine Evidenz, Keine Punktzahl“ ein, bei der Vorhersagen nur bewertet werden, wenn sie auf überprüfbare Anker zurückgeführt werden, und diagnostizieren die Evidenzqualität anhand von Übereinstimmung, Relevanz und Logik. Experimente mit acht MLLMs zeigen, dass die Verankerung der primäre Engpass ist: Gemini-3-pro erzielt die beste durchschnittliche Gesamtpunktzahl (0,573), während GPT-5 die höchste Antwortgenauigkeit bei SIN-QA erreicht (0,767), aber bei evidenzbasierter Gesamtbewertung schwächer abschneidet – was eine Lücke zwischen Korrektheit und nachvollziehbarer Begründung offenlegt.
English
Evaluating whether multimodal large language models truly understand long-form scientific papers remains challenging: answer-only metrics and synthetic "Needle-In-A-Haystack" tests often reward answer matching without requiring a causal, evidence-linked reasoning trace in the document. We propose the "Fish-in-the-Ocean" (FITO) paradigm, which requires models to construct explicit cross-modal evidence chains within native scientific documents. To operationalize FITO, we build SIN-Data, a scientific interleaved corpus that preserves the native interleaving of text and figures. On top of it, we construct SIN-Bench with four progressive tasks covering evidence discovery (SIN-Find), hypothesis verification (SIN-Verify), grounded QA (SIN-QA), and evidence-anchored synthesis (SIN-Summary). We further introduce "No Evidence, No Score", scoring predictions when grounded to verifiable anchors and diagnosing evidence quality via matching, relevance, and logic. Experiments on eight MLLMs show that grounding is the primary bottleneck: Gemini-3-pro achieves the best average overall score (0.573), while GPT-5 attains the highest SIN-QA answer accuracy (0.767) but underperforms on evidence-aligned overall scores, exposing a gap between correctness and traceable support.
PDF42January 21, 2026