SciVer: Evaluación de Modelos Fundamentales para la Verificación de Afirmaciones Científicas Multimodales
SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification
June 18, 2025
Autores: Chengye Wang, Yifei Shen, Zexi Kuang, Arman Cohan, Yilun Zhao
cs.AI
Resumen
Presentamos SciVer, el primer punto de referencia diseñado específicamente para evaluar la capacidad de los modelos fundamentales para verificar afirmaciones en un contexto científico multimodal. SciVer consta de 3,000 ejemplos anotados por expertos, extraídos de 1,113 artículos científicos, y abarca cuatro subconjuntos, cada uno representando un tipo de razonamiento común en la verificación de afirmaciones científicas multimodales. Para permitir una evaluación detallada, cada ejemplo incluye evidencia de apoyo anotada por expertos. Evaluamos el rendimiento de 21 modelos fundamentales multimodales de vanguardia, incluyendo o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision y Qwen2.5-VL. Nuestro experimento revela una brecha significativa en el rendimiento entre estos modelos y los expertos humanos en SciVer. A través de un análisis en profundidad de la generación aumentada por recuperación (RAG, por sus siglas en inglés) y evaluaciones de errores realizadas por humanos, identificamos limitaciones críticas en los modelos de código abierto actuales, ofreciendo insights clave para avanzar en la comprensión y el razonamiento de los modelos en tareas relacionadas con la literatura científica multimodal.
English
We introduce SciVer, the first benchmark specifically designed to evaluate
the ability of foundation models to verify claims within a multimodal
scientific context. SciVer consists of 3,000 expert-annotated examples over
1,113 scientific papers, covering four subsets, each representing a common
reasoning type in multimodal scientific claim verification. To enable
fine-grained evaluation, each example includes expert-annotated supporting
evidence. We assess the performance of 21 state-of-the-art multimodal
foundation models, including o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision, and
Qwen2.5-VL. Our experiment reveals a substantial performance gap between these
models and human experts on SciVer. Through an in-depth analysis of
retrieval-augmented generation (RAG), and human-conducted error evaluations, we
identify critical limitations in current open-source models, offering key
insights to advance models' comprehension and reasoning in multimodal
scientific literature tasks.