SIN-Bench: Tracciare Catene di Evidenze Native nella Letteratura Scientifica Multimodale a Lungo Contesto con Contenuti Intervallati
SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature
January 15, 2026
Autori: Yiming Ren, Junjie Wang, Yuxin Meng, Yihang Shi, Zhiqiang Lin, Ruihang Chu, Yiran Xu, Ziming Li, Yunfei Zhao, Zihan Wang, Yu Qiao, Ruiming Tang, Minghao Liu, Yujiu Yang
cs.AI
Abstract
Valutare se i modelli linguistici multimodali di grandi dimensioni comprendano veramente articoli scientifici estesi rimane una sfida: le metriche basate sulla sola risposta e i test sintetici "Needle-In-A-Haystack" (ago nel pagliaio) spesso premiano la corrispondenza della risposta senza richiedere una traccia di ragionamento causale, collegata alle evidenze, nel documento. Proponiamo il paradigma "Fish-in-the-Ocean" (FITO, Pesce nell'Oceano), che richiede ai modelli di costruire catene di evidenze cross-modali esplicite all'interno dei documenti scientifici nativi. Per implementare il FITO, costruiamo SIN-Data, un corpus scientifico intervallato che preserva la disposizione nativa di testo e figure. Sulla base di questo, costruiamo SIN-Bench con quattro compiti progressivi che coprono la scoperta di evidenze (SIN-Find), la verifica di ipotesi (SIN-Verify), domande e risposte fondate (SIN-QA) e la sintesi ancorata alle evidenze (SIN-Summary). Introduciamo inoltre il principio "No Evidence, No Score" (Nessuna Evidenza, Nessun Punteggio), valutando le previsioni solo quando ancorate a riferimenti verificabili e diagnosticando la qualità delle evidenze tramite corrispondenza, rilevanza e logica. Esperimenti su otto MLLM mostrano che l'ancoraggio alle evidenze è il collo di bottiglia principale: Gemini-3-pro raggiunge il miglior punteggio medio complessivo (0.573), mentre GPT-5 ottiene la più alta accuratezza nelle risposte SIN-QA (0.767) ma underperforma sui punteggi complessivi allineati alle evidenze, rivelando uno scarto tra correttezza e supporto tracciabile.
English
Evaluating whether multimodal large language models truly understand long-form scientific papers remains challenging: answer-only metrics and synthetic "Needle-In-A-Haystack" tests often reward answer matching without requiring a causal, evidence-linked reasoning trace in the document. We propose the "Fish-in-the-Ocean" (FITO) paradigm, which requires models to construct explicit cross-modal evidence chains within native scientific documents. To operationalize FITO, we build SIN-Data, a scientific interleaved corpus that preserves the native interleaving of text and figures. On top of it, we construct SIN-Bench with four progressive tasks covering evidence discovery (SIN-Find), hypothesis verification (SIN-Verify), grounded QA (SIN-QA), and evidence-anchored synthesis (SIN-Summary). We further introduce "No Evidence, No Score", scoring predictions when grounded to verifiable anchors and diagnosing evidence quality via matching, relevance, and logic. Experiments on eight MLLMs show that grounding is the primary bottleneck: Gemini-3-pro achieves the best average overall score (0.573), while GPT-5 attains the highest SIN-QA answer accuracy (0.767) but underperforms on evidence-aligned overall scores, exposing a gap between correctness and traceable support.