ChatPaper.aiChatPaper

ExpVid: 実験動画理解と推論のためのベンチマーク

ExpVid: A Benchmark for Experiment Video Understanding & Reasoning

October 13, 2025
著者: Yicheng Xu, Yue Wu, Jiashuo Yu, Ziang Yan, Tianxiang Jiang, Yinan He, Qingsong Zhao, Kai Chen, Yu Qiao, Limin Wang, Manabu Okumura, Yi Wang
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLMs)は、複雑な実験手順を解釈することで科学的発見を加速する可能性を秘めている。しかし、既存のベンチマークは、特にウェットラボ環境における実際の実験作業の細粒度かつ長期的な性質を無視しており、その真の能力は十分に理解されていない。このギャップを埋めるため、我々は科学実験動画においてMLLMsを体系的に評価する初のベンチマークであるExpVidを導入する。ExpVidは、査読付き動画出版物から厳選され、科学的プロセスを反映した新しい3段階のタスク階層を特徴とする:(1)ツール、材料、および行動の細粒度知覚、(2)手順の順序と完全性の理解、(3)実験全体をその公表された結論に結びつける科学的推論。自動生成と多分野の専門家による検証を組み合わせた視覚中心のアノテーションパイプラインにより、タスクが視覚的基盤を必要とすることを保証する。我々は19の主要なMLLMsをExpVidで評価し、粗粒度の認識では優れているものの、細部の曖昧さの解消、時間経過に伴う状態変化の追跡、実験手順と科学的成果の関連付けにおいて苦戦することを明らかにした。その結果、特に高次推論において、プロプライエタリモデルとオープンソースモデルの間に顕著な性能差が存在することが判明した。ExpVidは、診断ツールとしてだけでなく、科学的実験において信頼できるパートナーとなるMLLMsの開発に向けたロードマップを提供するものである。
English
Multimodal Large Language Models (MLLMs) hold promise for accelerating scientific discovery by interpreting complex experimental procedures. However, their true capabilities are poorly understood, as existing benchmarks neglect the fine-grained and long-horizon nature of authentic laboratory work, especially in wet-lab settings. To bridge this gap, we introduce ExpVid, the first benchmark designed to systematically evaluate MLLMs on scientific experiment videos. Curated from peer-reviewed video publications, ExpVid features a new three-level task hierarchy that mirrors the scientific process: (1) Fine-grained Perception of tools, materials, and actions; (2) Procedural Understanding of step order and completeness; and (3) Scientific Reasoning that connects the full experiment to its published conclusions. Our vision-centric annotation pipeline, combining automated generation with multi-disciplinary expert validation, ensures that tasks require visual grounding. We evaluate 19 leading MLLMs on ExpVid and find that while they excel at coarse-grained recognition, they struggle with disambiguating fine details, tracking state changes over time, and linking experimental procedures to scientific outcomes. Our results reveal a notable performance gap between proprietary and open-source models, particularly in high-order reasoning. ExpVid not only provides a diagnostic tool but also charts a roadmap for developing MLLMs capable of becoming trustworthy partners in scientific experimentation.
PDF32October 15, 2025