ExpVid: Um Benchmark para Compreensão e Raciocínio em Vídeos de Experimentos
ExpVid: A Benchmark for Experiment Video Understanding & Reasoning
October 13, 2025
Autores: Yicheng Xu, Yue Wu, Jiashuo Yu, Ziang Yan, Tianxiang Jiang, Yinan He, Qingsong Zhao, Kai Chen, Yu Qiao, Limin Wang, Manabu Okumura, Yi Wang
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) prometem acelerar a descoberta científica ao interpretar procedimentos experimentais complexos. No entanto, suas verdadeiras capacidades são pouco compreendidas, uma vez que os benchmarks existentes negligenciam a natureza detalhada e de longo prazo do trabalho laboratorial autêntico, especialmente em ambientes de laboratório úmido. Para preencher essa lacuna, introduzimos o ExpVid, o primeiro benchmark projetado para avaliar sistematicamente MLLMs em vídeos de experimentos científicos. Curatado a partir de publicações de vídeos revisados por pares, o ExpVid apresenta uma nova hierarquia de tarefas de três níveis que reflete o processo científico: (1) Percepção Detalhada de ferramentas, materiais e ações; (2) Compreensão Procedimental da ordem e completude dos passos; e (3) Raciocínio Científico que conecta o experimento completo às suas conclusões publicadas. Nossa pipeline de anotação centrada na visão, combinando geração automatizada com validação multidisciplinar de especialistas, garante que as tarefas exijam fundamentação visual. Avaliamos 19 MLLMs líderes no ExpVid e descobrimos que, embora se destaquem no reconhecimento de alto nível, eles lutam para desambiguar detalhes finos, rastrear mudanças de estado ao longo do tempo e vincular procedimentos experimentais a resultados científicos. Nossos resultados revelam uma lacuna de desempenho notável entre modelos proprietários e de código aberto, particularmente no raciocínio de ordem superior. O ExpVid não apenas fornece uma ferramenta de diagnóstico, mas também traça um roteiro para o desenvolvimento de MLLMs capazes de se tornarem parceiros confiáveis na experimentação científica.
English
Multimodal Large Language Models (MLLMs) hold promise for accelerating
scientific discovery by interpreting complex experimental procedures. However,
their true capabilities are poorly understood, as existing benchmarks neglect
the fine-grained and long-horizon nature of authentic laboratory work,
especially in wet-lab settings. To bridge this gap, we introduce ExpVid, the
first benchmark designed to systematically evaluate MLLMs on scientific
experiment videos. Curated from peer-reviewed video publications, ExpVid
features a new three-level task hierarchy that mirrors the scientific process:
(1) Fine-grained Perception of tools, materials, and actions; (2) Procedural
Understanding of step order and completeness; and (3) Scientific Reasoning that
connects the full experiment to its published conclusions. Our vision-centric
annotation pipeline, combining automated generation with multi-disciplinary
expert validation, ensures that tasks require visual grounding. We evaluate 19
leading MLLMs on ExpVid and find that while they excel at coarse-grained
recognition, they struggle with disambiguating fine details, tracking state
changes over time, and linking experimental procedures to scientific outcomes.
Our results reveal a notable performance gap between proprietary and
open-source models, particularly in high-order reasoning. ExpVid not only
provides a diagnostic tool but also charts a roadmap for developing MLLMs
capable of becoming trustworthy partners in scientific experimentation.