SONIC-O1: 오디오-비디오 이해를 위한 멀티모달 대규모 언어 모델의 실전 성능 평가 벤치마크
SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding
January 29, 2026
저자: Ahmed Y. Radwan, Christos Emmanouilidis, Hina Tabassum, Deval Pandya, Shaina Raza
cs.AI
초록
멀티모달 대규모 언어 모델(MLLM)은 최근 AI 연구의 주요 초점입니다. 그러나 기존 연구 대부분은 정적 이미지 이해에 집중한 반면, 순차적 오디오-비디오 데이터 처리 능력은 충분히 탐구되지 않았습니다. 이러한 격차는 실제 환경에서 MLLM 성능을 체계적으로 평가할 수 있는 고품질 벤치마크의 필요성을 부각시킵니다. 본 연구는 13개의 실제 대화 도메인에 걸친 4,958개의 주석과 인구통계학적 메타데이터로 구성된 포괄적이고 완전히 인간 검증된 벤치마크인 SONIC-O1을 소개합니다. SONIC-O1은 자유 형식 요약, 객관식 질문(MCQ) 응답, 그리고 지원 근거(추론)를 통한 시간적 위치 지정을 포함한 주요 작업에서 MLLM을 평가합니다. 독점 및 오픈소스 모델에 대한 실험은 한계를 보여줍니다. 두 모델 패밀리 간 MCQ 정확도 성능 격차는 상대적으로 작은 반면, 최고 성능의 독점 모델과 오픈소스 모델 간 시간적 위치 지정에서는 22.6%라는 상당한 성능 차이를 관찰했습니다. 성능은 인구통계학적 그룹에 따라 추가로 저하되어 모델 동작에 지속적인 불균형이 있음을 시사합니다. 전반적으로 SONIC-O1은 시간적 근거가 있고 사회적으로 강건한 멀티모달 이해를 위한 개방형 평가 도구를 제공합니다. 재현성 및 연구를 위해 SONIC-O1을 공개합니다:
프로젝트 페이지: https://vectorinstitute.github.io/sonic-o1/
데이터셋: https://huggingface.co/datasets/vector-institute/sonic-o1
Github: https://github.com/vectorinstitute/sonic-o1
리더보드: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
English
Multimodal Large Language Models (MLLMs) are a major focus of recent AI research. However, most prior work focuses on static image understanding, while their ability to process sequential audio-video data remains underexplored. This gap highlights the need for a high-quality benchmark to systematically evaluate MLLM performance in a real-world setting. We introduce SONIC-O1, a comprehensive, fully human-verified benchmark spanning 13 real-world conversational domains with 4,958 annotations and demographic metadata. SONIC-O1 evaluates MLLMs on key tasks, including open-ended summarization, multiple-choice question (MCQ) answering, and temporal localization with supporting rationales (reasoning). Experiments on closed- and open-source models reveal limitations. While the performance gap in MCQ accuracy between two model families is relatively small, we observe a substantial 22.6% performance difference in temporal localization between the best performing closed-source and open-source models. Performance further degrades across demographic groups, indicating persistent disparities in model behavior. Overall, SONIC-O1 provides an open evaluation suite for temporally grounded and socially robust multimodal understanding. We release SONIC-O1 for reproducibility and research: Project page: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard