MMVU : Mesurer la compréhension vidéo multi-disciplinaire de niveau expert
MMVU: Measuring Expert-Level Multi-Discipline Video Understanding
January 21, 2025
Auteurs: Yilun Zhao, Lujing Xie, Haowei Zhang, Guo Gan, Yitao Long, Zhiyuan Hu, Tongyan Hu, Weiyuan Chen, Chuhan Li, Junyang Song, Zhijian Xu, Chengye Wang, Weifeng Pan, Ziyao Shangguan, Xiangru Tang, Zhenwen Liang, Yixin Liu, Chen Zhao, Arman Cohan
cs.AI
Résumé
Nous présentons MMVU, un benchmark expert de niveau avancé et multidisciplinaire pour évaluer les modèles fondamentaux en compréhension vidéo. MMVU comprend 3 000 questions annotées par des experts couvrant 27 sujets répartis dans quatre disciplines principales : Sciences, Santé, Sciences humaines et sociales, et Ingénierie. Comparé aux benchmarks précédents, MMVU présente trois avancées clés. Tout d'abord, il met au défi les modèles d'appliquer des connaissances spécifiques au domaine et de réaliser un raisonnement de niveau expert pour analyser des vidéos de domaines spécialisés, allant au-delà de la perception visuelle de base généralement évaluée dans les benchmarks vidéo actuels. Deuxièmement, chaque exemple est annoté par des experts humains à partir de zéro. Nous mettons en place des contrôles stricts de la qualité des données pour garantir la haute qualité de l'ensemble de données. Enfin, chaque exemple est enrichi de justifications annotées par des experts et de connaissances de domaine pertinentes, facilitant l'analyse approfondie. Nous menons une évaluation approfondie de 32 modèles fondamentaux multimodaux de pointe sur MMVU. Les derniers modèles capables de System-2, o1 et Gemini 2.0 Flash Thinking, obtiennent les meilleures performances parmi les modèles testés. Cependant, ils restent encore en deçà de l'expertise humaine. À travers des analyses d'erreurs approfondies et des études de cas, nous proposons des perspectives exploitables pour les avancées futures en compréhension vidéo de niveau expert et intensive en connaissances pour des domaines spécialisés.
English
We introduce MMVU, a comprehensive expert-level, multi-discipline benchmark
for evaluating foundation models in video understanding. MMVU includes 3,000
expert-annotated questions spanning 27 subjects across four core disciplines:
Science, Healthcare, Humanities & Social Sciences, and Engineering. Compared to
prior benchmarks, MMVU features three key advancements. First, it challenges
models to apply domain-specific knowledge and perform expert-level reasoning to
analyze specialized-domain videos, moving beyond the basic visual perception
typically assessed in current video benchmarks. Second, each example is
annotated by human experts from scratch. We implement strict data quality
controls to ensure the high quality of the dataset. Finally, each example is
enriched with expert-annotated reasoning rationals and relevant domain
knowledge, facilitating in-depth analysis. We conduct an extensive evaluation
of 32 frontier multimodal foundation models on MMVU. The latest
System-2-capable models, o1 and Gemini 2.0 Flash Thinking, achieve the highest
performance among the tested models. However, they still fall short of matching
human expertise. Through in-depth error analyses and case studies, we offer
actionable insights for future advancements in expert-level,
knowledge-intensive video understanding for specialized domains.Summary
AI-Generated Summary