SIN-Bench: Het Traceren van Inheemse Bewijsketens in Langdurende Multimodale Wetenschappelijke Verweven Literatuur

Samenvatting

Het evalueren of multimodale grote taalmodellen lange wetenschappelijke artikelen daadwerkelijk begrijpen, blijft een uitdaging: antwoordgerichte metrieken en synthetische "speld-in-een-hooiberg"-tests belonen vaak het matchen van antwoorden zonder een causale, op bewijs gebaseerde redeneerspoor in het document te vereisen. Wij stellen het "Vis-in-de-Oceaan"-paradigma (FITO) voor, dat modellen verplicht expliciete cross-modale bewijsketens binnen originele wetenschappelijke documenten te construeren. Om FITO operationeel te maken, bouwen we SIN-Data, een wetenschappelijke corpus met afwisselende tekst en figuren die de oorspronkelijke vervlechting behoudt. Daarop construeren we SIN-Bench met vier progressieve taken: bewijsontdekking (SIN-Find), hypotheseverificatie (SIN-Verify), gegronde vraag-antwoordtaken (SIN-QA) en verankerde synthese (SIN-Summary). We introduceren verder "Geen Bewijs, Geen Score", waarbij voorspellingen alleen worden gescoord wanneer ze verankerd zijn aan verifieerbare ankerpunten en de bewijskwaliteit wordt gediagnosticeerd via matching, relevantie en logica. Experimenten met acht MLLM's tonen aan dat verankering de primieke bottleneck is: Gemini-3-pro behaalt de beste gemiddelde overall score (0.573), terwijl GPT-5 de hoogste SIN-QA-antwoordsnauwkeurigheid (0.767) bereikt maar onderpresteert op evidence-gebaseerde overall scores, wat een kloof blootlegt tussen correctheid en traceerbare onderbouwing.

English

Evaluating whether multimodal large language models truly understand long-form scientific papers remains challenging: answer-only metrics and synthetic "Needle-In-A-Haystack" tests often reward answer matching without requiring a causal, evidence-linked reasoning trace in the document. We propose the "Fish-in-the-Ocean" (FITO) paradigm, which requires models to construct explicit cross-modal evidence chains within native scientific documents. To operationalize FITO, we build SIN-Data, a scientific interleaved corpus that preserves the native interleaving of text and figures. On top of it, we construct SIN-Bench with four progressive tasks covering evidence discovery (SIN-Find), hypothesis verification (SIN-Verify), grounded QA (SIN-QA), and evidence-anchored synthesis (SIN-Summary). We further introduce "No Evidence, No Score", scoring predictions when grounded to verifiable anchors and diagnosing evidence quality via matching, relevance, and logic. Experiments on eight MLLMs show that grounding is the primary bottleneck: Gemini-3-pro achieves the best average overall score (0.573), while GPT-5 attains the highest SIN-QA answer accuracy (0.767) but underperforms on evidence-aligned overall scores, exposing a gap between correctness and traceable support.

SIN-Bench: Het Traceren van Inheemse Bewijsketens in Langdurende Multimodale Wetenschappelijke Verweven Literatuur

SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature

Samenvatting

Support