SciVideoBench: Evaluación del Razonamiento en Videos Científicos en Modelos Multimodales de Gran Escala
SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models
October 9, 2025
Autores: Andong Deng, Taojiannan Yang, Shoubin Yu, Lincoln Spencer, Mohit Bansal, Chen Chen, Serena Yeung-Levy, Xiaohan Wang
cs.AI
Resumen
Los Modelos Multimodales Grandes (LMMs, por sus siglas en inglés) han logrado avances notables en diversas capacidades; sin embargo, el razonamiento complejo sobre videos en el ámbito científico sigue siendo una frontera significativa y desafiante. Los puntos de referencia actuales para videos se centran principalmente en escenarios generales donde se depende en gran medida de la percepción/reconocimiento, con tareas de razonamiento relativamente simples, lo que lleva a la saturación y, por tanto, a una evaluación ineficaz de las habilidades cognitivas multimodales avanzadas. Para abordar esta brecha crítica, presentamos SciVideoBench, un punto de referencia riguroso diseñado específicamente para evaluar el razonamiento avanzado sobre videos en contextos científicos. SciVideoBench consta de 1,000 preguntas de opción múltiple cuidadosamente elaboradas, derivadas de videos experimentales científicos de vanguardia que abarcan más de 25 materias académicas especializadas y verificadas por un sistema semiautomático. Cada pregunta exige un conocimiento específico del dominio sofisticado, una percepción espacio-temporal precisa y un razonamiento lógico intrincado, desafiando efectivamente las habilidades cognitivas de orden superior de los modelos. Nuestra evaluación destaca déficits significativos en el rendimiento de los LMMs propietarios y de código abierto más avanzados, incluidos Gemini 2.5 Pro y Qwen2.5-VL, lo que indica un margen sustancial para el avance en las capacidades de razonamiento sobre videos. Los análisis detallados de factores críticos como la complejidad del razonamiento y la fundamentación visual proporcionan insights valiosos y una dirección clara para futuros desarrollos en LMMs, impulsando la evolución de verdaderos co-científicos de IA multimodal. Esperamos que SciVideoBench se ajuste a los intereses de la comunidad y ayude a ampliar los límites de la IA de vanguardia para la ciencia en general.
English
Large Multimodal Models (LMMs) have achieved remarkable progress across
various capabilities; however, complex video reasoning in the scientific domain
remains a significant and challenging frontier. Current video benchmarks
predominantly target general scenarios where perception/recognition is heavily
relied on, while with relatively simple reasoning tasks, leading to saturation
and thus failing to effectively evaluate advanced multimodal cognitive skills.
To address this critical gap, we introduce SciVideoBench, a rigorous benchmark
specifically designed to assess advanced video reasoning in scientific
contexts. SciVideoBench consists of 1,000 carefully crafted multiple-choice
questions derived from cutting-edge scientific experimental videos spanning
over 25 specialized academic subjects and verified by a semi-automatic system.
Each question demands sophisticated domain-specific knowledge, precise
spatiotemporal perception, and intricate logical reasoning, effectively
challenging models' higher-order cognitive abilities. Our evaluation highlights
significant performance deficits in state-of-the-art proprietary and
open-source LMMs, including Gemini 2.5 Pro and Qwen2.5-VL, indicating
substantial room for advancement in video reasoning capabilities. Detailed
analyses of critical factors such as reasoning complexity and visual grounding
provide valuable insights and clear direction for future developments in LMMs,
driving the evolution of truly capable multimodal AI co-scientists. We hope
SciVideoBench could fit the interests of the community and help to push the
boundary of cutting-edge AI for border science.