ExpVid: Un Benchmark per la Comprensione e il Ragionamento sui Video Sperimentali
ExpVid: A Benchmark for Experiment Video Understanding & Reasoning
October 13, 2025
Autori: Yicheng Xu, Yue Wu, Jiashuo Yu, Ziang Yan, Tianxiang Jiang, Yinan He, Qingsong Zhao, Kai Chen, Yu Qiao, Limin Wang, Manabu Okumura, Yi Wang
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) promettono di accelerare la scoperta scientifica interpretando procedure sperimentali complesse. Tuttavia, le loro vere capacità sono poco comprese, poiché i benchmark esistenti trascurano la natura granulare e a lungo termine del lavoro di laboratorio autentico, specialmente in contesti di laboratorio umido. Per colmare questa lacuna, introduciamo ExpVid, il primo benchmark progettato per valutare sistematicamente gli MLLM sui video di esperimenti scientifici. Curato da pubblicazioni video sottoposte a revisione paritaria, ExpVid presenta una nuova gerarchia di compiti a tre livelli che riflette il processo scientifico: (1) Percezione Granulare di strumenti, materiali e azioni; (2) Comprensione Procedurale dell'ordine e della completezza dei passaggi; e (3) Ragionamento Scientifico che collega l'intero esperimento alle sue conclusioni pubblicate. La nostra pipeline di annotazione centrata sulla visione, che combina generazione automatizzata con validazione multidisciplinare di esperti, garantisce che i compiti richiedano un ancoraggio visivo. Valutiamo 19 MLLM leader su ExpVid e scopriamo che, mentre eccellono nel riconoscimento a grana grossa, faticano a disambiguare dettagli fini, a tracciare cambiamenti di stato nel tempo e a collegare procedure sperimentali a risultati scientifici. I nostri risultati rivelano un divario di prestazioni significativo tra modelli proprietari e open-source, specialmente nel ragionamento di ordine superiore. ExpVid non solo fornisce uno strumento diagnostico, ma traccia anche una roadmap per lo sviluppo di MLLM in grado di diventare partner affidabili nella sperimentazione scientifica.
English
Multimodal Large Language Models (MLLMs) hold promise for accelerating
scientific discovery by interpreting complex experimental procedures. However,
their true capabilities are poorly understood, as existing benchmarks neglect
the fine-grained and long-horizon nature of authentic laboratory work,
especially in wet-lab settings. To bridge this gap, we introduce ExpVid, the
first benchmark designed to systematically evaluate MLLMs on scientific
experiment videos. Curated from peer-reviewed video publications, ExpVid
features a new three-level task hierarchy that mirrors the scientific process:
(1) Fine-grained Perception of tools, materials, and actions; (2) Procedural
Understanding of step order and completeness; and (3) Scientific Reasoning that
connects the full experiment to its published conclusions. Our vision-centric
annotation pipeline, combining automated generation with multi-disciplinary
expert validation, ensures that tasks require visual grounding. We evaluate 19
leading MLLMs on ExpVid and find that while they excel at coarse-grained
recognition, they struggle with disambiguating fine details, tracking state
changes over time, and linking experimental procedures to scientific outcomes.
Our results reveal a notable performance gap between proprietary and
open-source models, particularly in high-order reasoning. ExpVid not only
provides a diagnostic tool but also charts a roadmap for developing MLLMs
capable of becoming trustworthy partners in scientific experimentation.