ChatPaper.aiChatPaper

SONIC-O1 : Un benchmark en conditions réelles pour évaluer les modèles de langage multimodaux sur la compréhension audio-vidéo

SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding

January 29, 2026
papers.authors: Ahmed Y. Radwan, Christos Emmanouilidis, Hina Tabassum, Deval Pandya, Shaina Raza
cs.AI

papers.abstract

Les modèles de langage de grande taille multimodaux (MLLM) sont un axe majeur de la recherche récente en IA. Cependant, la plupart des travaux antérieurs se concentrent sur la compréhension d'images statiques, tandis que leur capacité à traiter des données audio-vidéo séquentielles reste peu explorée. Cette lacune souligne la nécessité d'un benchmark de haute qualité pour évaluer systématiquement les performances des MLLM dans un cadre réaliste. Nous présentons SONIC-O1, un benchmark complet et entièrement vérifié par des humains, couvrant 13 domaines conversationnels réels avec 4 958 annotations et des métadonnées démographiques. SONIC-O1 évalue les MLLM sur des tâches clés, incluant la synthèse ouverte, la réponse à des questions à choix multiples (QCM) et la localisation temporelle avec des justifications raisonnées. Les expériences sur des modèles propriétaires et open source révèlent des limitations. Bien que l'écart de performance en précision sur les QCM entre deux familles de modèles soit relativement faible, nous observons une différence substantielle de 22,6 % dans la localisation temporelle entre le meilleur modèle propriétaire et le meilleur modèle open source. Les performances se dégradent en outre selon les groupes démographiques, indiquant des disparités persistantes dans le comportement des modèles. Globalement, SONIC-O1 fournit une suite d'évaluation ouverte pour une compréhension multimodale ancrée temporellement et socialement robuste. Nous publions SONIC-O1 pour la reproductibilité et la recherche : Page du projet : https://vectorinstitute.github.io/sonic-o1/ Jeu de données : https://huggingface.co/datasets/vector-institute/sonic-o1 Github : https://github.com/vectorinstitute/sonic-o1 Classement : https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
English
Multimodal Large Language Models (MLLMs) are a major focus of recent AI research. However, most prior work focuses on static image understanding, while their ability to process sequential audio-video data remains underexplored. This gap highlights the need for a high-quality benchmark to systematically evaluate MLLM performance in a real-world setting. We introduce SONIC-O1, a comprehensive, fully human-verified benchmark spanning 13 real-world conversational domains with 4,958 annotations and demographic metadata. SONIC-O1 evaluates MLLMs on key tasks, including open-ended summarization, multiple-choice question (MCQ) answering, and temporal localization with supporting rationales (reasoning). Experiments on closed- and open-source models reveal limitations. While the performance gap in MCQ accuracy between two model families is relatively small, we observe a substantial 22.6% performance difference in temporal localization between the best performing closed-source and open-source models. Performance further degrades across demographic groups, indicating persistent disparities in model behavior. Overall, SONIC-O1 provides an open evaluation suite for temporally grounded and socially robust multimodal understanding. We release SONIC-O1 for reproducibility and research: Project page: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
PDF22February 3, 2026