ChatPaper.aiChatPaper

SONIC-O1: 音声・映像理解におけるマルチモーダル大規模言語モデル評価のための実世界ベンチマーク

SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding

January 29, 2026
著者: Ahmed Y. Radwan, Christos Emmanouilidis, Hina Tabassum, Deval Pandya, Shaina Raza
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLM)は、近年のAI研究における主要な焦点である。しかし、従来の研究の大半は静的な画像理解に重点を置いており、連続的な音声・動画データを処理する能力については未解明の部分が多い。この隔たりは、実世界の設定においてMLLMの性能を体系的に評価するための高品質なベンチマークの必要性を浮き彫りにしている。本研究では、13の実世界対話ドメインにわたり、4,958件の注釈と人口統計メタデータを備えた、包括的かつ完全に人手検証されたベンチマーク「SONIC-O1」を提案する。SONIC-O1は、自由形式要約、多肢選択式質問(MCQ)応答、および推論根拠を伴う時間的定位といった主要タスクにおいてMLLMを評価する。クローズドソースモデルとオープンソースモデルを用いた実験により、限界が明らかになった。2つのモデル系統間のMCQ正答率における性能差は比較的小さいものの、最良のクローズドソースモデルとオープンソースモデル間では、時間的定位タスクにおいて22.6%という顕著な性能差が観察された。さらに、人口統計グループ間で性能が低下しており、モデル挙動に持続的な格差が存在することが示唆される。総じて、SONIC-O1は時間的基盤を持ち社会的に頑健なマルチモーダル理解のための公開評価スイートを提供する。再現性と研究のためSONIC-O1を公開する:プロジェクトページ:https://vectorinstitute.github.io/sonic-o1/ データセット:https://huggingface.co/datasets/vector-institute/sonic-o1 Github:https://github.com/vectorinstitute/sonic-o1 リーダーボード:https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
English
Multimodal Large Language Models (MLLMs) are a major focus of recent AI research. However, most prior work focuses on static image understanding, while their ability to process sequential audio-video data remains underexplored. This gap highlights the need for a high-quality benchmark to systematically evaluate MLLM performance in a real-world setting. We introduce SONIC-O1, a comprehensive, fully human-verified benchmark spanning 13 real-world conversational domains with 4,958 annotations and demographic metadata. SONIC-O1 evaluates MLLMs on key tasks, including open-ended summarization, multiple-choice question (MCQ) answering, and temporal localization with supporting rationales (reasoning). Experiments on closed- and open-source models reveal limitations. While the performance gap in MCQ accuracy between two model families is relatively small, we observe a substantial 22.6% performance difference in temporal localization between the best performing closed-source and open-source models. Performance further degrades across demographic groups, indicating persistent disparities in model behavior. Overall, SONIC-O1 provides an open evaluation suite for temporally grounded and socially robust multimodal understanding. We release SONIC-O1 for reproducibility and research: Project page: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
PDF22February 3, 2026