SIN-Bench: Rastreando Cadenas de Evidencia Nativa en Literatura Científica Intercalada Multimodal de Contexto Largo
SIN-Bench: Tracing Native Evidence Chains in Long-Context Multimodal Scientific Interleaved Literature
January 15, 2026
Autores: Yiming Ren, Junjie Wang, Yuxin Meng, Yihang Shi, Zhiqiang Lin, Ruihang Chu, Yiran Xu, Ziming Li, Yunfei Zhao, Zihan Wang, Yu Qiao, Ruiming Tang, Minghao Liu, Yujiu Yang
cs.AI
Resumen
Evaluar si los modelos de lenguaje multimodal realmente comprenden artículos científicos extensos sigue siendo un desafío: las métricas basadas únicamente en respuestas y las pruebas sintéticas "Aguja-en-un-Pajar" a menudo premian la coincidencia de respuestas sin requerir una traza de razonamiento causal vinculada a evidencias en el documento. Proponemos el paradigma "Pez-en-el-Océano" (FITO), que exige a los modelos construir cadenas de evidencia explícitas y multimodales dentro de documentos científicos nativos. Para operacionalizar FITO, construimos SIN-Data, un corpus científico intercalado que preserva la disposición nativa de texto y figuras. Sobre este, construimos SIN-Bench con cuatro tareas progresivas que cubren descubrimiento de evidencias (SIN-Find), verificación de hipótesis (SIN-Verify), preguntas y respuestas fundamentadas (SIN-QA) y síntesis anclada en evidencias (SIN-Summary). Además, introducimos "Sin Evidencia, Sin Puntuación", evaluando predicciones solo cuando están fundamentadas en anclajes verificables y diagnosticando la calidad de la evidencia mediante coincidencia, relevancia y lógica. Los experimentos en ocho MLLMs muestran que la fundamentación es el principal cuello de botella: Gemini-3-pro logra el mejor puntaje general promedio (0.573), mientras que GPT-5 alcanza la mayor precisión en respuestas SIN-QA (0.767) pero tiene un rendimiento inferior en puntajes generales alineados con evidencias, exponiendo una brecha entre la corrección y el soporte trazable.
English
Evaluating whether multimodal large language models truly understand long-form scientific papers remains challenging: answer-only metrics and synthetic "Needle-In-A-Haystack" tests often reward answer matching without requiring a causal, evidence-linked reasoning trace in the document. We propose the "Fish-in-the-Ocean" (FITO) paradigm, which requires models to construct explicit cross-modal evidence chains within native scientific documents. To operationalize FITO, we build SIN-Data, a scientific interleaved corpus that preserves the native interleaving of text and figures. On top of it, we construct SIN-Bench with four progressive tasks covering evidence discovery (SIN-Find), hypothesis verification (SIN-Verify), grounded QA (SIN-QA), and evidence-anchored synthesis (SIN-Summary). We further introduce "No Evidence, No Score", scoring predictions when grounded to verifiable anchors and diagnosing evidence quality via matching, relevance, and logic. Experiments on eight MLLMs show that grounding is the primary bottleneck: Gemini-3-pro achieves the best average overall score (0.573), while GPT-5 attains the highest SIN-QA answer accuracy (0.767) but underperforms on evidence-aligned overall scores, exposing a gap between correctness and traceable support.