ChatPaper.aiChatPaper

SIN-Bench : Traçage des Chaînes de Preuves Natives dans la Littérature Scientifique Multimodale à Contexte Long et Entrelacée

SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature

January 15, 2026
papers.authors: Yiming Ren, Junjie Wang, Yuxin Meng, Yihang Shi, Zhiqiang Lin, Ruihang Chu, Yiran Xu, Ziming Li, Yunfei Zhao, Zihan Wang, Yu Qiao, Ruiming Tang, Minghao Liu, Yujiu Yang
cs.AI

papers.abstract

Évaluer si les modèles de langage multimodaux de grande taille comprennent véritablement les articles scientifiques longs reste un défi : les métriques basées uniquement sur les réponses et les tests synthétiques de type "Aiguille dans une botte de foin" récompensent souvent la correspondance des réponses sans exiger une trace de raisonnement causal, liée à des preuves dans le document. Nous proposons le paradigme "Poisson dans l'Océan" (FITO), qui exige que les modèles construisent des chaînes de preuves explicites et multimodales au sein des documents scientifiques natifs. Pour opérationnaliser FITO, nous construisons SIN-Data, un corpus scientifique entrelacé qui préserve l'interpénétration native du texte et des figures. Par-dessus, nous construisons SIN-Bench avec quatre tâches progressives couvrant la découverte de preuves (SIN-Find), la vérification d'hypothèses (SIN-Verify), les questions-réponses ancrées (SIN-QA) et la synthèse ancrée sur des preuves (SIN-Summary). Nous introduisons en outre le principe "Pas de Preuve, Pas de Score", qui consiste à noter les prédictions uniquement lorsqu'elles sont ancrées à des éléments vérifiables et à diagnostiquer la qualité des preuves via le matching, la pertinence et la logique. Les expériences sur huit MLLM montrent que l'ancrage des preuves est le principal goulot d'étranglement : Gemini-3-pro obtient le meilleur score global moyen (0,573), tandis que GPT-5 atteint la plus haute précision de réponse pour SIN-QA (0,767) mais sous-performe sur les scores globaux alignés avec les preuves, exposant un écart entre la justesse et le support traçable.
English
Evaluating whether multimodal large language models truly understand long-form scientific papers remains challenging: answer-only metrics and synthetic "Needle-In-A-Haystack" tests often reward answer matching without requiring a causal, evidence-linked reasoning trace in the document. We propose the "Fish-in-the-Ocean" (FITO) paradigm, which requires models to construct explicit cross-modal evidence chains within native scientific documents. To operationalize FITO, we build SIN-Data, a scientific interleaved corpus that preserves the native interleaving of text and figures. On top of it, we construct SIN-Bench with four progressive tasks covering evidence discovery (SIN-Find), hypothesis verification (SIN-Verify), grounded QA (SIN-QA), and evidence-anchored synthesis (SIN-Summary). We further introduce "No Evidence, No Score", scoring predictions when grounded to verifiable anchors and diagnosing evidence quality via matching, relevance, and logic. Experiments on eight MLLMs show that grounding is the primary bottleneck: Gemini-3-pro achieves the best average overall score (0.573), while GPT-5 attains the highest SIN-QA answer accuracy (0.767) but underperforms on evidence-aligned overall scores, exposing a gap between correctness and traceable support.
PDF42January 21, 2026