SONIC-O1: Um Benchmark do Mundo Real para Avaliação de Modelos de Linguagem Multimodais na Compreensão Áudio-Vídeo

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) são um foco principal da pesquisa recente em IA. No entanto, a maior parte do trabalho anterior concentra-se na compreensão de imagens estáticas, enquanto sua capacidade de processar dados sequenciais de áudio e vídeo permanece pouco explorada. Esta lacuna destaca a necessidade de um benchmark de alta qualidade para avaliar sistematicamente o desempenho dos MLLMs em um contexto do mundo real. Apresentamos o SONIC-O1, um benchmark abrangente e totalmente verificado por humanos, abrangendo 13 domínios conversacionais do mundo real com 4.958 anotações e metadados demográficos. O SONIC-O1 avalia os MLLMs em tarefas-chave, incluindo sumarização de resposta aberta, resposta a perguntas de múltipla escolha (MCQ) e localização temporal com racionalizações de apoio (raciocínio). Experimentos com modelos proprietários e de código aberto revelam limitações. Embora a diferença de desempenho na precisão de MCQ entre duas famílias de modelos seja relativamente pequena, observamos uma diferença substancial de 22,6% no desempenho de localização temporal entre os melhores modelos proprietários e de código aberto. O desempenho degrada-se ainda mais entre grupos demográficos, indicando disparidades persistentes no comportamento dos modelos. No geral, o SONIC-O1 fornece um conjunto aberto de avaliação para compreensão multimodal temporalmente fundamentada e socialmente robusta. Disponibilizamos o SONIC-O1 para reprodutibilidade e pesquisa: Página do projeto: https://vectorinstitute.github.io/sonic-o1/ Conjunto de dados: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard

English

Multimodal Large Language Models (MLLMs) are a major focus of recent AI research. However, most prior work focuses on static image understanding, while their ability to process sequential audio-video data remains underexplored. This gap highlights the need for a high-quality benchmark to systematically evaluate MLLM performance in a real-world setting. We introduce SONIC-O1, a comprehensive, fully human-verified benchmark spanning 13 real-world conversational domains with 4,958 annotations and demographic metadata. SONIC-O1 evaluates MLLMs on key tasks, including open-ended summarization, multiple-choice question (MCQ) answering, and temporal localization with supporting rationales (reasoning). Experiments on closed- and open-source models reveal limitations. While the performance gap in MCQ accuracy between two model families is relatively small, we observe a substantial 22.6% performance difference in temporal localization between the best performing closed-source and open-source models. Performance further degrades across demographic groups, indicating persistent disparities in model behavior. Overall, SONIC-O1 provides an open evaluation suite for temporally grounded and socially robust multimodal understanding. We release SONIC-O1 for reproducibility and research: Project page: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard

SONIC-O1: Um Benchmark do Mundo Real para Avaliação de Modelos de Linguagem Multimodais na Compreensão Áudio-Vídeo

SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding

Resumo

Support