ChatPaper.aiChatPaper

MMVU: 専門レベルの多分野ビデオ理解の測定

MMVU: Measuring Expert-Level Multi-Discipline Video Understanding

January 21, 2025
著者: Yilun Zhao, Lujing Xie, Haowei Zhang, Guo Gan, Yitao Long, Zhiyuan Hu, Tongyan Hu, Weiyuan Chen, Chuhan Li, Junyang Song, Zhijian Xu, Chengye Wang, Weifeng Pan, Ziyao Shangguan, Xiangru Tang, Zhenwen Liang, Yixin Liu, Chen Zhao, Arman Cohan
cs.AI

要旨

MMVU(Multi-discipline Multimodal Video Understanding)は、ビデオ理解の基盤モデルを評価するための包括的な専門家レベルのベンチマークです。MMVUには、科学、医療、人文社会科学、エンジニアリングの4つの主要な分野にまたがる27の科目にわたる3,000の専門家によるアノテーション付き質問が含まれています。従来のベンチマークと比較して、MMVUには3つの主要な進歩があります。まず、モデルに特定のドメイン知識を適用し、専門家レベルの推論を行い、通常のビジュアル認識にとどまらない専門ドメインのビデオを分析することを求めています。第二に、各例は人間の専門家によってゼロからアノテーションされています。データの高品質を確保するために厳格なデータ品質管理を実施しています。最後に、各例には専門家による推論の根拠と関連するドメイン知識が付加されており、深い分析を容易にしています。我々は32の最先端のマルチモーダル基盤モデルをMMVUで広範な評価を行いました。最新のSystem-2対応モデルであるo1とGemini 2.0 Flash Thinkingが、テストされたモデルの中で最高の性能を達成しています。ただし、それらは依然として人間の専門知識には及んでいません。詳細なエラー分析と事例研究を通じて、専門家レベルでの知識集約型ビデオ理解の将来の進展に向けた具体的な洞察を提供しています。
English
We introduce MMVU, a comprehensive expert-level, multi-discipline benchmark for evaluating foundation models in video understanding. MMVU includes 3,000 expert-annotated questions spanning 27 subjects across four core disciplines: Science, Healthcare, Humanities & Social Sciences, and Engineering. Compared to prior benchmarks, MMVU features three key advancements. First, it challenges models to apply domain-specific knowledge and perform expert-level reasoning to analyze specialized-domain videos, moving beyond the basic visual perception typically assessed in current video benchmarks. Second, each example is annotated by human experts from scratch. We implement strict data quality controls to ensure the high quality of the dataset. Finally, each example is enriched with expert-annotated reasoning rationals and relevant domain knowledge, facilitating in-depth analysis. We conduct an extensive evaluation of 32 frontier multimodal foundation models on MMVU. The latest System-2-capable models, o1 and Gemini 2.0 Flash Thinking, achieve the highest performance among the tested models. However, they still fall short of matching human expertise. Through in-depth error analyses and case studies, we offer actionable insights for future advancements in expert-level, knowledge-intensive video understanding for specialized domains.

Summary

AI-Generated Summary

PDF852January 22, 2025