ChatPaper.aiChatPaper

ExpVid: 실험 비디오 이해 및 추론을 위한 벤치마크

ExpVid: A Benchmark for Experiment Video Understanding & Reasoning

October 13, 2025
저자: Yicheng Xu, Yue Wu, Jiashuo Yu, Ziang Yan, Tianxiang Jiang, Yinan He, Qingsong Zhao, Kai Chen, Yu Qiao, Limin Wang, Manabu Okumura, Yi Wang
cs.AI

초록

다중모달 대형 언어 모델(MLLMs)은 복잡한 실험 절차를 해석함으로써 과학적 발견을 가속화할 잠재력을 가지고 있습니다. 그러나 기존 벤치마크가 실제 실험실 작업, 특히 웻랩 환경에서의 세밀하고 장기적인 특성을 간과함에 따라 이들의 진정한 능력은 제대로 이해되지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 과학 실험 비디오에서 MLLMs를 체계적으로 평가하기 위한 첫 번째 벤치마크인 ExpVid를 소개합니다. 동료 검토를 거친 비디오 출판물에서 선별된 ExpVid는 과학적 과정을 반영한 새로운 3단계 작업 계층 구조를 특징으로 합니다: (1) 도구, 재료, 행동에 대한 세밀한 인지; (2) 단계 순서와 완결성에 대한 절차적 이해; (3) 전체 실험을 출판된 결론과 연결하는 과학적 추론. 자동 생성과 다학제 전문가 검증을 결합한 비전 중심의 주석 파이프라인은 작업이 시각적 근거를 요구하도록 보장합니다. 우리는 ExpVid에서 19개의 주요 MLLMs를 평가했으며, 이들이 대략적인 인식에서는 뛰어나지만 세부 사항을 명확히 구분하고 시간에 따른 상태 변화를 추적하며 실험 절차를 과학적 결과와 연결하는 데 어려움을 겪는 것을 발견했습니다. 우리의 결과는 특히 고차원적 추론에서 독점 모델과 오픈소스 모델 간의 뚜렷한 성능 격차를 보여줍니다. ExpVid는 진단 도구로서의 역할뿐만 아니라 과학적 실험에서 신뢰할 수 있는 파트너가 될 수 있는 MLLMs 개발을 위한 로드맵을 제시합니다.
English
Multimodal Large Language Models (MLLMs) hold promise for accelerating scientific discovery by interpreting complex experimental procedures. However, their true capabilities are poorly understood, as existing benchmarks neglect the fine-grained and long-horizon nature of authentic laboratory work, especially in wet-lab settings. To bridge this gap, we introduce ExpVid, the first benchmark designed to systematically evaluate MLLMs on scientific experiment videos. Curated from peer-reviewed video publications, ExpVid features a new three-level task hierarchy that mirrors the scientific process: (1) Fine-grained Perception of tools, materials, and actions; (2) Procedural Understanding of step order and completeness; and (3) Scientific Reasoning that connects the full experiment to its published conclusions. Our vision-centric annotation pipeline, combining automated generation with multi-disciplinary expert validation, ensures that tasks require visual grounding. We evaluate 19 leading MLLMs on ExpVid and find that while they excel at coarse-grained recognition, they struggle with disambiguating fine details, tracking state changes over time, and linking experimental procedures to scientific outcomes. Our results reveal a notable performance gap between proprietary and open-source models, particularly in high-order reasoning. ExpVid not only provides a diagnostic tool but also charts a roadmap for developing MLLMs capable of becoming trustworthy partners in scientific experimentation.
PDF32October 15, 2025