MMOU: Un Punto de Referencia Masivo de Comprensión y Razonamiento Omni para Tareas Múltiples en Videos Largos y Complejos del Mundo Real

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs, por sus siglas en inglés) han demostrado un sólido rendimiento en la comprensión visual y auditiva cuando se evalúan de forma aislada. Sin embargo, su capacidad para razonar conjuntamente sobre señales omnimodales (visuales, auditivas y textuales) en videos largos y complejos sigue siendo en gran medida inexplorada. Presentamos MMOU, un nuevo benchmark diseñado para evaluar sistemáticamente la comprensión y el razonamiento multimodal bajo estas condiciones desafiantes y del mundo real. MMOU consta de 15.000 preguntas cuidadosamente seleccionadas, emparejadas con 9038 videos de longitud variable recopilados de la web, que abarcan diversos dominios y exhiben un contenido audiovisual rico y estrechamente acoplado. El benchmark cubre 13 categorías de habilidades fundamentales, todas las cuales requieren integrar evidencia a través de modalidades y tiempo. Todas las preguntas son anotadas manualmente en múltiples turnos por anotadores profesionales, garantizando alta calidad y fidelidad de razonamiento. Evaluamos más de 20 modelos multimodales de última generación, tanto de código abierto como propietarios, en MMOU. Los resultados revelan brechas sustanciales de rendimiento: el mejor modelo propietario logra solo un 64,2% de precisión, mientras que el modelo de código abierto más potente alcanza apenas un 46,8%. Nuestros resultados subrayan los desafíos de la comprensión omnimodal de formato largo, revelando que los modelos actuales fracasan con frecuencia en aplicar incluso habilidades fundamentales en videos largos. Mediante un análisis detallado, identificamos además modos de fallo sistemáticos y aportamos insights sobre dónde y por qué los modelos actuales fallan.

English

Multimodal Large Language Models (MLLMs) have shown strong performance in visual and audio understanding when evaluated in isolation. However, their ability to jointly reason over omni-modal (visual, audio, and textual) signals in long and complex videos remains largely unexplored. We introduce MMOU, a new benchmark designed to systematically evaluate multimodal understanding and reasoning under these challenging, real-world conditions. MMOU consists of 15,000 carefully curated questions paired with 9038 web-collected videos of varying length, spanning diverse domains and exhibiting rich, tightly coupled audio-visual content. The benchmark covers 13 fundamental skill categories, all of which require integrating evidence across modalities and time. All questions are manually annotated across multiple turns by professional annotators, ensuring high quality and reasoning fidelity. We evaluate 20+ state-of-the-art open-source and proprietary multimodal models on MMOU. The results expose substantial performance gaps: the best closed-source model achieves only 64.2% accuracy, while the strongest open-source model reaches just 46.8%. Our results highlight the challenges of long-form omni-modal understanding, revealing that current models frequently fail to apply even fundamental skills in long videos. Through detailed analysis, we further identify systematic failure modes and provide insights into where and why current models break.

MMOU: Un Punto de Referencia Masivo de Comprensión y Razonamiento Omni para Tareas Múltiples en Videos Largos y Complejos del Mundo Real

MMOU: A Massive Multi-Task Omni Understanding and Reasoning Benchmark for Long and Complex Real-World Videos

Resumen

Support