ExpVid : Un référentiel pour la compréhension et le raisonnement sur les vidéos d'expériences
ExpVid: A Benchmark for Experiment Video Understanding & Reasoning
October 13, 2025
papers.authors: Yicheng Xu, Yue Wu, Jiashuo Yu, Ziang Yan, Tianxiang Jiang, Yinan He, Qingsong Zhao, Kai Chen, Yu Qiao, Limin Wang, Manabu Okumura, Yi Wang
cs.AI
papers.abstract
Les modèles de langage multimodaux de grande envergure (MLLMs) promettent d’accélérer les découvertes scientifiques en interprétant des procédures expérimentales complexes. Cependant, leurs véritables capacités sont mal comprises, car les benchmarks existants négligent la nature granulaire et à long terme des travaux de laboratoire authentiques, en particulier dans les environnements de laboratoire humide. Pour combler cette lacune, nous introduisons ExpVid, le premier benchmark conçu pour évaluer systématiquement les MLLMs sur des vidéos d’expériences scientifiques. Compilé à partir de publications vidéo évaluées par des pairs, ExpVid propose une nouvelle hiérarchie de tâches à trois niveaux qui reflète le processus scientifique : (1) Perception granulaire des outils, matériaux et actions ; (2) Compréhension procédurale de l’ordre et de l’exhaustivité des étapes ; et (3) Raisonnement scientifique qui relie l’expérience complète à ses conclusions publiées. Notre pipeline d’annotation centré sur la vision, combinant une génération automatisée avec une validation multidisciplinaire par des experts, garantit que les tâches nécessitent un ancrage visuel. Nous évaluons 19 MLLMs de premier plan sur ExpVid et constatons que, bien qu’ils excellent dans la reconnaissance à gros grain, ils peinent à désambiguïser les détails fins, à suivre les changements d’état dans le temps et à relier les procédures expérimentales aux résultats scientifiques. Nos résultats révèlent un écart de performance notable entre les modèles propriétaires et open-source, en particulier dans le raisonnement d’ordre supérieur. ExpVid fournit non seulement un outil de diagnostic, mais trace également une feuille de route pour le développement de MLLMs capables de devenir des partenaires fiables dans l’expérimentation scientifique.
English
Multimodal Large Language Models (MLLMs) hold promise for accelerating
scientific discovery by interpreting complex experimental procedures. However,
their true capabilities are poorly understood, as existing benchmarks neglect
the fine-grained and long-horizon nature of authentic laboratory work,
especially in wet-lab settings. To bridge this gap, we introduce ExpVid, the
first benchmark designed to systematically evaluate MLLMs on scientific
experiment videos. Curated from peer-reviewed video publications, ExpVid
features a new three-level task hierarchy that mirrors the scientific process:
(1) Fine-grained Perception of tools, materials, and actions; (2) Procedural
Understanding of step order and completeness; and (3) Scientific Reasoning that
connects the full experiment to its published conclusions. Our vision-centric
annotation pipeline, combining automated generation with multi-disciplinary
expert validation, ensures that tasks require visual grounding. We evaluate 19
leading MLLMs on ExpVid and find that while they excel at coarse-grained
recognition, they struggle with disambiguating fine details, tracking state
changes over time, and linking experimental procedures to scientific outcomes.
Our results reveal a notable performance gap between proprietary and
open-source models, particularly in high-order reasoning. ExpVid not only
provides a diagnostic tool but also charts a roadmap for developing MLLMs
capable of becoming trustworthy partners in scientific experimentation.