SIN-Bench: Rastreando Cadeias de Evidências Nativas em Literatura Científica Intercalada Multimodal de Contexto Longo

Resumo

A avaliação de se os modelos de linguagem multimodal compreendem verdadeiramente artigos científicos longos continua a ser um desafio: as métricas baseadas apenas na resposta e os testes sintéticos "Needle-In-A-Haystack" (Agulha no Palheiro) frequentemente recompensam a correspondência da resposta sem exigir um rastro de raciocínio causal e vinculado a evidências no documento. Propomos o paradigma "Fish-in-the-Ocean" (FITO, ou Peixe no Oceano), que exige que os modelos construam cadeias de evidências explícitas e multimodais dentro dos documentos científicos em seu formato nativo. Para operacionalizar o FITO, construímos o SIN-Data, um corpus científico intercalado que preserva a intercalação nativa de texto e figuras. Com base nele, construímos o SIN-Bench com quatro tarefas progressivas que abrangem a descoberta de evidências (SIN-Find), a verificação de hipóteses (SIN-Verify), perguntas e respostas fundamentadas (SIN-QA) e a síntese ancorada em evidências (SIN-Summary). Introduzimos ainda a regra "No Evidence, No Score" (Sem Evidência, Sem Pontuação), que pontua as previsões apenas quando fundamentadas em âncoras verificáveis e diagnostica a qualidade das evidências através de correspondência, relevância e lógica. Experimentos com oito MLLMs mostram que a fundamentação é o principal gargalo: o Gemini-3-pro alcança a melhor pontuação geral média (0,573), enquanto o GPT-5 atinge a maior precisão de resposta no SIN-QA (0,767), mas tem desempenho inferior nas pontuações gerais alinhadas com evidências, expondo uma lacuna entre a correção e o suporte rastreável.

English

Evaluating whether multimodal large language models truly understand long-form scientific papers remains challenging: answer-only metrics and synthetic "Needle-In-A-Haystack" tests often reward answer matching without requiring a causal, evidence-linked reasoning trace in the document. We propose the "Fish-in-the-Ocean" (FITO) paradigm, which requires models to construct explicit cross-modal evidence chains within native scientific documents. To operationalize FITO, we build SIN-Data, a scientific interleaved corpus that preserves the native interleaving of text and figures. On top of it, we construct SIN-Bench with four progressive tasks covering evidence discovery (SIN-Find), hypothesis verification (SIN-Verify), grounded QA (SIN-QA), and evidence-anchored synthesis (SIN-Summary). We further introduce "No Evidence, No Score", scoring predictions when grounded to verifiable anchors and diagnosing evidence quality via matching, relevance, and logic. Experiments on eight MLLMs show that grounding is the primary bottleneck: Gemini-3-pro achieves the best average overall score (0.573), while GPT-5 attains the highest SIN-QA answer accuracy (0.767) but underperforms on evidence-aligned overall scores, exposing a gap between correctness and traceable support.

SIN-Bench: Rastreando Cadeias de Evidências Nativas em Literatura Científica Intercalada Multimodal de Contexto Longo

SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature

Resumo

Support