SciVideoBench: Avaliação de Raciocínio em Vídeos Científicos em Modelos Multimodais de Grande Escala
SciVideoBench: Benchmarking Scientific Video Reasoning in Large Multimodal Models
October 9, 2025
Autores: Andong Deng, Taojiannan Yang, Shoubin Yu, Lincoln Spencer, Mohit Bansal, Chen Chen, Serena Yeung-Levy, Xiaohan Wang
cs.AI
Resumo
Os Modelos Multimodais de Grande Escala (LMMs) alcançaram progressos notáveis em diversas capacidades; no entanto, o raciocínio complexo em vídeos no domínio científico continua sendo uma fronteira significativa e desafiadora. Os benchmarks atuais de vídeo visam predominantemente cenários gerais onde a percepção/reconhecimento é fortemente dependente, enquanto as tarefas de raciocínio são relativamente simples, levando à saturação e, consequentemente, falhando em avaliar efetivamente habilidades cognitivas multimodais avançadas. Para abordar essa lacuna crítica, introduzimos o SciVideoBench, um benchmark rigoroso especificamente projetado para avaliar o raciocínio avançado em vídeos em contextos científicos. O SciVideoBench consiste em 1.000 questões de múltipla escolha cuidadosamente elaboradas, derivadas de vídeos experimentais científicos de ponta que abrangem mais de 25 disciplinas acadêmicas especializadas e verificadas por um sistema semiautomático. Cada questão exige conhecimento específico do domínio, percepção espaço-temporal precisa e raciocínio lógico intrincado, desafiando efetivamente as habilidades cognitivas de ordem superior dos modelos. Nossa avaliação destaca déficits significativos de desempenho nos LMMs proprietários e de código aberto mais avançados, incluindo Gemini 2.5 Pro e Qwen2.5-VL, indicando um espaço substancial para avanço nas capacidades de raciocínio em vídeos. Análises detalhadas de fatores críticos, como complexidade de raciocínio e fundamentação visual, fornecem insights valiosos e uma direção clara para desenvolvimentos futuros em LMMs, impulsionando a evolução de co-cientistas de IA multimodal verdadeiramente capazes. Esperamos que o SciVideoBench possa atender aos interesses da comunidade e ajudar a expandir os limites da IA de ponta para a ciência em geral.
English
Large Multimodal Models (LMMs) have achieved remarkable progress across
various capabilities; however, complex video reasoning in the scientific domain
remains a significant and challenging frontier. Current video benchmarks
predominantly target general scenarios where perception/recognition is heavily
relied on, while with relatively simple reasoning tasks, leading to saturation
and thus failing to effectively evaluate advanced multimodal cognitive skills.
To address this critical gap, we introduce SciVideoBench, a rigorous benchmark
specifically designed to assess advanced video reasoning in scientific
contexts. SciVideoBench consists of 1,000 carefully crafted multiple-choice
questions derived from cutting-edge scientific experimental videos spanning
over 25 specialized academic subjects and verified by a semi-automatic system.
Each question demands sophisticated domain-specific knowledge, precise
spatiotemporal perception, and intricate logical reasoning, effectively
challenging models' higher-order cognitive abilities. Our evaluation highlights
significant performance deficits in state-of-the-art proprietary and
open-source LMMs, including Gemini 2.5 Pro and Qwen2.5-VL, indicating
substantial room for advancement in video reasoning capabilities. Detailed
analyses of critical factors such as reasoning complexity and visual grounding
provide valuable insights and clear direction for future developments in LMMs,
driving the evolution of truly capable multimodal AI co-scientists. We hope
SciVideoBench could fit the interests of the community and help to push the
boundary of cutting-edge AI for border science.