ChatPaper.aiChatPaper

SONIC-O1: Ein Benchmark für die reale Welt zur Bewertung multimodaler großer Sprachmodelle im Bereich des Audio-Video-Verständnisses

SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding

January 29, 2026
papers.authors: Ahmed Y. Radwan, Christos Emmanouilidis, Hina Tabassum, Deval Pandya, Shaina Raza
cs.AI

papers.abstract

Multimodale Large Language Models (MLLMs) sind ein zentraler Schwerpunkt der aktuellen KI-Forschung. Der Großteil der bisherigen Arbeiten konzentriert sich jedoch auf das Verständnis statischer Bilder, während ihre Fähigkeit zur Verarbeitung sequenzieller Audio-Video-Daten noch weitgehend unerforscht ist. Diese Lücke unterstreicht die Notwendigkeit eines hochwertigen Benchmarks, um die Leistung von MLLMs unter realen Bedingungen systematisch zu bewerten. Wir stellen SONIC-O1 vor, einen umfassenden, vollständig menschlich verifizierten Benchmark, der 13 Konversationsdomänen aus der realen Welt mit 4.958 Annotationen und demografischen Metadaten abdeckt. SONIC-O1 evaluiert MLLMs anhand zentraler Aufgaben, darunter zusammenfassende Texterstellung mit offenem Ende, Beantwortung von Multiple-Choice-Fragen (MCQ) und temporale Lokalisierung mit unterstützenden Begründungen (Reasoning). Experimente mit Closed- und Open-Source-Modellen zeigen Limitationen auf. Während die Leistungslücke bei der MCQ-Genauigkeit zwischen beiden Modellfamilien relativ gering ist, beobachten wir einen erheblichen Leistungsunterschied von 22,6 % bei der temporalen Lokalisierung zwischen dem besten Closed-Source- und dem besten Open-Source-Modell. Die Leistung verschlechtert sich weiterhin über verschiedene demografische Gruppen hinweg, was auf anhaltende Disparitäten im Modellverhalten hindeutet. Insgesamt bietet SONIC-O1 eine offene Evaluierungsumgebung für zeitlich verankertes und sozial robustes multimodales Verständnis. Wir veröffentlichen SONIC-O1 zur Reproduzierbarkeit und für die Forschung: Projektseite: https://vectorinstitute.github.io/sonic-o1/ Datensatz: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
English
Multimodal Large Language Models (MLLMs) are a major focus of recent AI research. However, most prior work focuses on static image understanding, while their ability to process sequential audio-video data remains underexplored. This gap highlights the need for a high-quality benchmark to systematically evaluate MLLM performance in a real-world setting. We introduce SONIC-O1, a comprehensive, fully human-verified benchmark spanning 13 real-world conversational domains with 4,958 annotations and demographic metadata. SONIC-O1 evaluates MLLMs on key tasks, including open-ended summarization, multiple-choice question (MCQ) answering, and temporal localization with supporting rationales (reasoning). Experiments on closed- and open-source models reveal limitations. While the performance gap in MCQ accuracy between two model families is relatively small, we observe a substantial 22.6% performance difference in temporal localization between the best performing closed-source and open-source models. Performance further degrades across demographic groups, indicating persistent disparities in model behavior. Overall, SONIC-O1 provides an open evaluation suite for temporally grounded and socially robust multimodal understanding. We release SONIC-O1 for reproducibility and research: Project page: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
PDF22February 3, 2026