ChatPaper.aiChatPaper

ExpVid: Un punto de referencia para la comprensión y el razonamiento de videos de experimentos

ExpVid: A Benchmark for Experiment Video Understanding & Reasoning

October 13, 2025
Autores: Yicheng Xu, Yue Wu, Jiashuo Yu, Ziang Yan, Tianxiang Jiang, Yinan He, Qingsong Zhao, Kai Chen, Yu Qiao, Limin Wang, Manabu Okumura, Yi Wang
cs.AI

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) prometen acelerar el descubrimiento científico mediante la interpretación de procedimientos experimentales complejos. Sin embargo, sus verdaderas capacidades son poco comprendidas, ya que los puntos de referencia existentes descuidan la naturaleza detallada y de largo plazo del trabajo de laboratorio auténtico, especialmente en entornos de laboratorio húmedo. Para cerrar esta brecha, presentamos ExpVid, el primer punto de referencia diseñado para evaluar sistemáticamente a los MLLMs en videos de experimentos científicos. Curando a partir de publicaciones de videos revisadas por pares, ExpVid presenta una nueva jerarquía de tareas de tres niveles que refleja el proceso científico: (1) Percepción detallada de herramientas, materiales y acciones; (2) Comprensión Procedimental del orden y la completitud de los pasos; y (3) Razonamiento Científico que conecta el experimento completo con sus conclusiones publicadas. Nuestro pipeline de anotación centrado en la visión, que combina la generación automatizada con la validación multidisciplinaria de expertos, asegura que las tareas requieran un fundamento visual. Evaluamos 19 MLLMs líderes en ExpVid y encontramos que, aunque sobresalen en el reconocimiento de grano grueso, tienen dificultades para desambiguar detalles finos, rastrear cambios de estado a lo largo del tiempo y vincular procedimientos experimentales con resultados científicos. Nuestros resultados revelan una brecha de rendimiento notable entre los modelos propietarios y los de código abierto, particularmente en el razonamiento de alto orden. ExpVid no solo proporciona una herramienta de diagnóstico, sino que también traza una hoja de ruta para el desarrollo de MLLMs capaces de convertirse en socios confiables en la experimentación científica.
English
Multimodal Large Language Models (MLLMs) hold promise for accelerating scientific discovery by interpreting complex experimental procedures. However, their true capabilities are poorly understood, as existing benchmarks neglect the fine-grained and long-horizon nature of authentic laboratory work, especially in wet-lab settings. To bridge this gap, we introduce ExpVid, the first benchmark designed to systematically evaluate MLLMs on scientific experiment videos. Curated from peer-reviewed video publications, ExpVid features a new three-level task hierarchy that mirrors the scientific process: (1) Fine-grained Perception of tools, materials, and actions; (2) Procedural Understanding of step order and completeness; and (3) Scientific Reasoning that connects the full experiment to its published conclusions. Our vision-centric annotation pipeline, combining automated generation with multi-disciplinary expert validation, ensures that tasks require visual grounding. We evaluate 19 leading MLLMs on ExpVid and find that while they excel at coarse-grained recognition, they struggle with disambiguating fine details, tracking state changes over time, and linking experimental procedures to scientific outcomes. Our results reveal a notable performance gap between proprietary and open-source models, particularly in high-order reasoning. ExpVid not only provides a diagnostic tool but also charts a roadmap for developing MLLMs capable of becoming trustworthy partners in scientific experimentation.
PDF32October 15, 2025