SONIC-O1: Um Benchmark do Mundo Real para Avaliação de Modelos de Linguagem Multimodais na Compreensão Áudio-Vídeo
SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding
January 29, 2026
Autores: Ahmed Y. Radwan, Christos Emmanouilidis, Hina Tabassum, Deval Pandya, Shaina Raza
cs.AI
Resumo
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) são um foco principal da pesquisa recente em IA. No entanto, a maior parte do trabalho anterior concentra-se na compreensão de imagens estáticas, enquanto sua capacidade de processar dados sequenciais de áudio e vídeo permanece pouco explorada. Esta lacuna destaca a necessidade de um benchmark de alta qualidade para avaliar sistematicamente o desempenho dos MLLMs em um contexto do mundo real. Apresentamos o SONIC-O1, um benchmark abrangente e totalmente verificado por humanos, abrangendo 13 domínios conversacionais do mundo real com 4.958 anotações e metadados demográficos. O SONIC-O1 avalia os MLLMs em tarefas-chave, incluindo sumarização de resposta aberta, resposta a perguntas de múltipla escolha (MCQ) e localização temporal com racionalizações de apoio (raciocínio). Experimentos com modelos proprietários e de código aberto revelam limitações. Embora a diferença de desempenho na precisão de MCQ entre duas famílias de modelos seja relativamente pequena, observamos uma diferença substancial de 22,6% no desempenho de localização temporal entre os melhores modelos proprietários e de código aberto. O desempenho degrada-se ainda mais entre grupos demográficos, indicando disparidades persistentes no comportamento dos modelos. No geral, o SONIC-O1 fornece um conjunto aberto de avaliação para compreensão multimodal temporalmente fundamentada e socialmente robusta. Disponibilizamos o SONIC-O1 para reprodutibilidade e pesquisa: Página do projeto: https://vectorinstitute.github.io/sonic-o1/ Conjunto de dados: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
English
Multimodal Large Language Models (MLLMs) are a major focus of recent AI research. However, most prior work focuses on static image understanding, while their ability to process sequential audio-video data remains underexplored. This gap highlights the need for a high-quality benchmark to systematically evaluate MLLM performance in a real-world setting. We introduce SONIC-O1, a comprehensive, fully human-verified benchmark spanning 13 real-world conversational domains with 4,958 annotations and demographic metadata. SONIC-O1 evaluates MLLMs on key tasks, including open-ended summarization, multiple-choice question (MCQ) answering, and temporal localization with supporting rationales (reasoning). Experiments on closed- and open-source models reveal limitations. While the performance gap in MCQ accuracy between two model families is relatively small, we observe a substantial 22.6% performance difference in temporal localization between the best performing closed-source and open-source models. Performance further degrades across demographic groups, indicating persistent disparities in model behavior. Overall, SONIC-O1 provides an open evaluation suite for temporally grounded and socially robust multimodal understanding. We release SONIC-O1 for reproducibility and research: Project page: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard