MMVU : Mesurer la compréhension vidéo multi-disciplinaire de niveau expert

papers.abstract

Nous présentons MMVU, un benchmark expert de niveau avancé et multidisciplinaire pour évaluer les modèles fondamentaux en compréhension vidéo. MMVU comprend 3 000 questions annotées par des experts couvrant 27 sujets répartis dans quatre disciplines principales : Sciences, Santé, Sciences humaines et sociales, et Ingénierie. Comparé aux benchmarks précédents, MMVU présente trois avancées clés. Tout d'abord, il met au défi les modèles d'appliquer des connaissances spécifiques au domaine et de réaliser un raisonnement de niveau expert pour analyser des vidéos de domaines spécialisés, allant au-delà de la perception visuelle de base généralement évaluée dans les benchmarks vidéo actuels. Deuxièmement, chaque exemple est annoté par des experts humains à partir de zéro. Nous mettons en place des contrôles stricts de la qualité des données pour garantir la haute qualité de l'ensemble de données. Enfin, chaque exemple est enrichi de justifications annotées par des experts et de connaissances de domaine pertinentes, facilitant l'analyse approfondie. Nous menons une évaluation approfondie de 32 modèles fondamentaux multimodaux de pointe sur MMVU. Les derniers modèles capables de System-2, o1 et Gemini 2.0 Flash Thinking, obtiennent les meilleures performances parmi les modèles testés. Cependant, ils restent encore en deçà de l'expertise humaine. À travers des analyses d'erreurs approfondies et des études de cas, nous proposons des perspectives exploitables pour les avancées futures en compréhension vidéo de niveau expert et intensive en connaissances pour des domaines spécialisés.

English

We introduce MMVU, a comprehensive expert-level, multi-discipline benchmark for evaluating foundation models in video understanding. MMVU includes 3,000 expert-annotated questions spanning 27 subjects across four core disciplines: Science, Healthcare, Humanities & Social Sciences, and Engineering. Compared to prior benchmarks, MMVU features three key advancements. First, it challenges models to apply domain-specific knowledge and perform expert-level reasoning to analyze specialized-domain videos, moving beyond the basic visual perception typically assessed in current video benchmarks. Second, each example is annotated by human experts from scratch. We implement strict data quality controls to ensure the high quality of the dataset. Finally, each example is enriched with expert-annotated reasoning rationals and relevant domain knowledge, facilitating in-depth analysis. We conduct an extensive evaluation of 32 frontier multimodal foundation models on MMVU. The latest System-2-capable models, o1 and Gemini 2.0 Flash Thinking, achieve the highest performance among the tested models. However, they still fall short of matching human expertise. Through in-depth error analyses and case studies, we offer actionable insights for future advancements in expert-level, knowledge-intensive video understanding for specialized domains.

MMVU : Mesurer la compréhension vidéo multi-disciplinaire de niveau expert

MMVU: Measuring Expert-Level Multi-Discipline Video Understanding

papers.abstract

Support