ChatPaper.aiChatPaper

MMOU: 길고 복잡한 실세계 비디오를 위한 대규모 다중 작업 통합 이해 및 추론 벤치마크

MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos

March 14, 2026
저자: Arushi Goel, Sreyan Ghosh, Vatsal Agarwal, Nishit Anand, Kaousheik Jayakumar, Lasha Koroshinadze, Yao Xu, Katie Lyons, James Case, Karan Sapra, Kevin J. Shih, Siddharth Gururani, Abhinav Shrivastava, Ramani Duraiswami, Dinesh Manocha, Andrew Tao, Bryan Catanzaro, Mohammad Shoeybi, Wei Ping
cs.AI

초록

멀티모달 대규모 언어 모델(MLLMs)은 개별 평가에서 시각 및 청각 이해 능력이 우수한 것으로 나타났습니다. 그러나 길고 복잡한 비디오에서 전모드(시각, 청각, 텍스트) 신호를 종합적으로 추론하는 능력은 아직 크게 탐구되지 않았습니다. 우리는 이러한 도전적인 실제 조건에서 멀티모달 이해 및 추론 능력을 체계적으로 평가하기 위해 새로운 벤치마크인 MMOU를 소개합니다. MMOU는 다양한 길이의 웹 수집 비디오 9,038개와 쌍을 이루는 15,000개의 정교하게 선별된 질문으로 구성되며, 다양한 영역을 아우르고 풍부하고 긴밀하게 결합된 오디오-비디오 콘텐츠를 특징으로 합니다. 이 벤치마크는 모달리티와 시간에 걸친 증거 통합을 요구하는 13가지 기본 기술 범주를 포괄합니다. 모든 질문은 전문 주석자가 다중 턴에 걸쳐 수동으로 주석을 달아 높은 품질과 추론 정확도를 보장합니다. 우리는 MMOU를 통해 20개 이상의 최첨단 오픈소스 및 독점 멀티모달 모델을 평가했습니다. 결과는 상당한 성능 격차를 드러냈습니다: 최고의 독점 모델은 64.2% 정확도만 달성한 반면, 가장 강력한 오픈소스 모델은 46.8%에 그쳤습니다. 우리의 결과는 장편 전모드 이해의 어려움을 강조하며, 현재 모델들이 긴 비디오에서 기본적인 기술조차 자주 적용하지 못함을 보여줍니다. 상세 분석을 통해 우리는 체계적인 실패 모드를 추가로 식별하고, 현재 모델이 어디서 왜 실패하는지에 대한 통찰을 제공합니다.
English
Multimodal Large Language Models (MLLMs) have shown strong performance in visual and audio understanding when evaluated in isolation. However, their ability to jointly reason over omni-modal (visual, audio, and textual) signals in long and complex videos remains largely unexplored. We introduce MMOU, a new benchmark designed to systematically evaluate multimodal understanding and reasoning under these challenging, real-world conditions. MMOU consists of 15,000 carefully curated questions paired with 9038 web-collected videos of varying length, spanning diverse domains and exhibiting rich, tightly coupled audio-visual content. The benchmark covers 13 fundamental skill categories, all of which require integrating evidence across modalities and time. All questions are manually annotated across multiple turns by professional annotators, ensuring high quality and reasoning fidelity. We evaluate 20+ state-of-the-art open-source and proprietary multimodal models on MMOU. The results expose substantial performance gaps: the best closed-source model achieves only 64.2% accuracy, while the strongest open-source model reaches just 46.8%. Our results highlight the challenges of long-form omni-modal understanding, revealing that current models frequently fail to apply even fundamental skills in long videos. Through detailed analysis, we further identify systematic failure modes and provide insights into where and why current models break.
PDF92March 18, 2026