SONIC-O1: Un Punto de Referencia del Mundo Real para Evaluar Modelos de Lenguaje Grandes Multimodales en la Comprensión de Audio y Video
SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding
January 29, 2026
Autores: Ahmed Y. Radwan, Christos Emmanouilidis, Hina Tabassum, Deval Pandya, Shaina Raza
cs.AI
Resumen
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) son un foco principal de la investigación reciente en IA. Sin embargo, la mayor parte del trabajo previo se centra en la comprensión de imágenes estáticas, mientras que su capacidad para procesar datos secuenciales de audio y vídeo sigue estando poco explorada. Esta brecha subraya la necesidad de un benchmark de alta calidad para evaluar sistemáticamente el rendimiento de los MLLMs en un entorno del mundo real. Presentamos SONIC-O1, un benchmark integral y completamente verificado por humanos que abarca 13 dominios conversacionales del mundo real con 4.958 anotaciones y metadatos demográficos. SONIC-O1 evalúa los MLLMs en tareas clave, que incluyen la generación de resúmenes de respuesta abierta, la respuesta a preguntas de opción múltiple (MCQ) y la localización temporal con justificaciones de apoyo (razonamiento). Los experimentos con modelos de código cerrado y abierto revelan limitaciones. Si bien la brecha de rendimiento en la precisión de MCQ entre dos familias de modelos es relativamente pequeña, observamos una diferencia sustancial del 22.6% en el rendimiento de la localización temporal entre el mejor modelo de código cerrado y el mejor modelo de código abierto. El rendimiento se degrada aún más entre los grupos demográficos, lo que indica disparidades persistentes en el comportamiento de los modelos. En general, SONIC-O1 proporciona un conjunto de evaluación abierto para la comprensión multimodal con base temporal y socialmente robusta. Publicamos SONIC-O1 para garantizar la reproducibilidad y fomentar la investigación: Página del proyecto: https://vectorinstitute.github.io/sonic-o1/ Conjunto de datos: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Clasificación de modelos: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
English
Multimodal Large Language Models (MLLMs) are a major focus of recent AI research. However, most prior work focuses on static image understanding, while their ability to process sequential audio-video data remains underexplored. This gap highlights the need for a high-quality benchmark to systematically evaluate MLLM performance in a real-world setting. We introduce SONIC-O1, a comprehensive, fully human-verified benchmark spanning 13 real-world conversational domains with 4,958 annotations and demographic metadata. SONIC-O1 evaluates MLLMs on key tasks, including open-ended summarization, multiple-choice question (MCQ) answering, and temporal localization with supporting rationales (reasoning). Experiments on closed- and open-source models reveal limitations. While the performance gap in MCQ accuracy between two model families is relatively small, we observe a substantial 22.6% performance difference in temporal localization between the best performing closed-source and open-source models. Performance further degrades across demographic groups, indicating persistent disparities in model behavior. Overall, SONIC-O1 provides an open evaluation suite for temporally grounded and socially robust multimodal understanding. We release SONIC-O1 for reproducibility and research: Project page: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard