MMOU : Un benchmark massif de compréhension et de raisonnement omni-tâches pour des vidéos réelles longues et complexes
MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos
March 14, 2026
Auteurs: Arushi Goel, Sreyan Ghosh, Vatsal Agarwal, Nishit Anand, Kaousheik Jayakumar, Lasha Koroshinadze, Yao Xu, Katie Lyons, James Case, Karan Sapra, Kevin J. Shih, Siddharth Gururani, Abhinav Shrivastava, Ramani Duraiswami, Dinesh Manocha, Andrew Tao, Bryan Catanzaro, Mohammad Shoeybi, Wei Ping
cs.AI
Résumé
Les modèles de grands langages multimodaux (MLLM) démontrent des performances solides dans la compréhension visuelle et auditive lorsqu'ils sont évalués isolément. Cependant, leur capacité à raisonner conjointement sur des signaux omni-modaux (visuels, auditifs et textuels) dans des vidéos longues et complexes reste largement inexplorée. Nous présentons MMOU, un nouveau benchmark conçu pour évaluer systématiquement la compréhension et le raisonnement multimodaux dans ces conditions réalistes et exigeantes. MMOU comprend 15 000 questions soigneusement sélectionnées, associées à 9 038 vidéos collectées sur le web de durées variables, couvrant des domaines diversifiés et présentant un contenu audiovisuel riche et étroitement lié. Le benchmark englobe 13 catégories de compétences fondamentales, toutes nécessitant l'intégration de preuves à travers les modalités et le temps. Toutes les questions sont annotées manuellement sur plusieurs tours par des annotateurs professionnels, garantissant une haute qualité et une fidélité du raisonnement. Nous évaluons plus de 20 modèles multimodaux open-source et propriétaires state-of-the-art sur MMOU. Les résultats révèlent des écarts de performance substantiels : le meilleur modèle propriétaire n'atteint que 64,2 % de précision, tandis que le modèle open-source le plus performant n'atteint que 46,8 %. Nos résultats soulignent les défis de la compréhension omni-modale de longue durée, révélant que les modèles actuels échouent fréquemment à appliquer même des compétences fondamentales dans les vidéos longues. À travers une analyse détaillée, nous identifions en outre des modes d'échec systématiques et fournissons des éclairages sur les raisons et les situations où les modèles actuels rencontrent des limites.
English
Multimodal Large Language Models (MLLMs) have shown strong performance in visual and audio understanding when evaluated in isolation. However, their ability to jointly reason over omni-modal (visual, audio, and textual) signals in long and complex videos remains largely unexplored. We introduce MMOU, a new benchmark designed to systematically evaluate multimodal understanding and reasoning under these challenging, real-world conditions. MMOU consists of 15,000 carefully curated questions paired with 9038 web-collected videos of varying length, spanning diverse domains and exhibiting rich, tightly coupled audio-visual content. The benchmark covers 13 fundamental skill categories, all of which require integrating evidence across modalities and time. All questions are manually annotated across multiple turns by professional annotators, ensuring high quality and reasoning fidelity. We evaluate 20+ state-of-the-art open-source and proprietary multimodal models on MMOU. The results expose substantial performance gaps: the best closed-source model achieves only 64.2% accuracy, while the strongest open-source model reaches just 46.8%. Our results highlight the challenges of long-form omni-modal understanding, revealing that current models frequently fail to apply even fundamental skills in long videos. Through detailed analysis, we further identify systematic failure modes and provide insights into where and why current models break.