MMOU: Ein umfassender Benchmark für massives Multi-Task-Omni-Verständnis und -Argumentation für lange und komplexe Videos aus der realen Welt

Zusammenfassung

Multimodale Large Language Models (MLLMs) haben bei isolierter Betrachtung eine starke Leistung im Verständnis visueller und auditiver Inhalte gezeigt. Ihre Fähigkeit, omni-modale (visuelle, auditive und textuelle) Signale in langen und komplexen Videos gemeinsam zu verarbeiten, ist jedoch weitgehend unerforscht. Wir stellen MMOU vor, einen neuen Benchmark, der entwickelt wurde, um multimodales Verständnis und Schlussfolgerungen unter diesen anspruchsvellen, realen Bedingungen systematisch zu bewerten. MMOU besteht aus 15.000 sorgfältig zusammengestellten Fragen, die 9038 aus dem Internet stammenden Videos unterschiedlicher Länge zugeordnet sind. Diese Videos umfassen diverse Domänen und weisen einen reichen, eng gekoppelten audiovisuellen Inhalt auf. Der Benchmark deckt 13 grundlegende Fähigkeitskategorien ab, die alle die Integration von Informationen über Modalitäten und Zeit hinweg erfordern. Alle Fragen wurden von professionellen Annotatoren in mehreren Durchgängen manuell annotiert, um hohe Qualität und Schlussfolgerungstreue zu gewährleisten. Wir evaluieren mehr als 20 state-of-the-art, open-source und proprietäre multimodale Modelle mit MMOU. Die Ergebnisse zeigen erhebliche Leistungslücken: Das beste Closed-Source-Modell erreicht nur 64,2 % Genauigkeit, während das stärkste Open-Source-Modell lediglich auf 46,8 % kommt. Unsere Ergebnisse unterstreichen die Herausforderungen des langformatigen omni-modalen Verstehens und zeigen, dass aktuelle Modelle häufig scheitern, selbst grundlegende Fähigkeiten in langen Videos anzuwenden. Durch eine detaillierte Analyse identifizieren wir weiterhin systematische Fehlermodi und liefern Einblicke darin, wo und warum aktuelle Modelle versagen.

English

Multimodal Large Language Models (MLLMs) have shown strong performance in visual and audio understanding when evaluated in isolation. However, their ability to jointly reason over omni-modal (visual, audio, and textual) signals in long and complex videos remains largely unexplored. We introduce MMOU, a new benchmark designed to systematically evaluate multimodal understanding and reasoning under these challenging, real-world conditions. MMOU consists of 15,000 carefully curated questions paired with 9038 web-collected videos of varying length, spanning diverse domains and exhibiting rich, tightly coupled audio-visual content. The benchmark covers 13 fundamental skill categories, all of which require integrating evidence across modalities and time. All questions are manually annotated across multiple turns by professional annotators, ensuring high quality and reasoning fidelity. We evaluate 20+ state-of-the-art open-source and proprietary multimodal models on MMOU. The results expose substantial performance gaps: the best closed-source model achieves only 64.2% accuracy, while the strongest open-source model reaches just 46.8%. Our results highlight the challenges of long-form omni-modal understanding, revealing that current models frequently fail to apply even fundamental skills in long videos. Through detailed analysis, we further identify systematic failure modes and provide insights into where and why current models break.

MMOU: Ein umfassender Benchmark für massives Multi-Task-Omni-Verständnis und -Argumentation für lange und komplexe Videos aus der realen Welt

MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos

Zusammenfassung

Support