SONIC-O1: Un Benchmark del Mondo Reale per la Valutazione di Modelli Linguistici Multimodali sulla Comprensione Audio-Video

Abstract

I modelli linguistici multimodali di grandi dimensioni (MLLM) sono un ambito di primario interesse nella recente ricerca sull'intelligenza artificiale. Tuttavia, la maggior parte del lavoro precedente si concentra sulla comprensione di immagini statiche, mentre la loro capacità di elaborare dati audio-video sequenziali rimane poco esplorata. Questa lacuna evidenzia la necessità di un benchmark di alta qualità per valutare sistematicamente le prestazioni degli MLLM in un contesto reale. Presentiamo SONIC-O1, un benchmark completo e interamente verificato da esseri umani, che copre 13 domini conversazionali del mondo reale con 4.958 annotazioni e metadati demografici. SONIC-O1 valuta gli MLLM su compiti chiave, tra cui la rielaborazione aperta (summarization), la risposta a domande a scelta multipla e la localizzazione temporale con relative motivazioni (ragionamento). Esperimenti condotti su modelli proprietari e open-source ne rivelano le limitazioni. Sebbene il divario prestazionale nell'accuratezza delle domande a scelta multipla tra due famiglie di modelli sia relativamente piccolo, osserviamo una differenza sostanziale del 22,6% nella localizzazione temporale tra il miglior modello proprietario e il miglior modello open-source. Le prestazioni si degradano ulteriormente tra i diversi gruppi demografici, indicando disparità persistenti nel comportamento dei modelli. Nel complesso, SONIC-O1 fornisce una suite di valutazione aperta per una comprensione multimodale temporalmente fondata e socialmente robusta. Rilasciamo SONIC-O1 per favorire la riproducibilità e la ricerca: Pagina del progetto: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard

English

Multimodal Large Language Models (MLLMs) are a major focus of recent AI research. However, most prior work focuses on static image understanding, while their ability to process sequential audio-video data remains underexplored. This gap highlights the need for a high-quality benchmark to systematically evaluate MLLM performance in a real-world setting. We introduce SONIC-O1, a comprehensive, fully human-verified benchmark spanning 13 real-world conversational domains with 4,958 annotations and demographic metadata. SONIC-O1 evaluates MLLMs on key tasks, including open-ended summarization, multiple-choice question (MCQ) answering, and temporal localization with supporting rationales (reasoning). Experiments on closed- and open-source models reveal limitations. While the performance gap in MCQ accuracy between two model families is relatively small, we observe a substantial 22.6% performance difference in temporal localization between the best performing closed-source and open-source models. Performance further degrades across demographic groups, indicating persistent disparities in model behavior. Overall, SONIC-O1 provides an open evaluation suite for temporally grounded and socially robust multimodal understanding. We release SONIC-O1 for reproducibility and research: Project page: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard

SONIC-O1: Un Benchmark del Mondo Reale per la Valutazione di Modelli Linguistici Multimodali sulla Comprensione Audio-Video

SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding

Abstract

Support