ChatPaper.aiChatPaper

SONIC-O1: Реальный бенчмарк для оценки мультимодальных больших языковых моделей в области аудиовизуального понимания

SONIC-O1: A Real-World Benchmark for Evaluating Multimodal Large Language Models on Audio-Video Understanding

January 29, 2026
Авторы: Ahmed Y. Radwan, Christos Emmanouilidis, Hina Tabassum, Deval Pandya, Shaina Raza
cs.AI

Аннотация

Мультимодальные большие языковые модели (MБЯМ) являются основным направлением современных исследований в области искусственного интеллекта. Однако большая часть предыдущих работ сосредоточена на анализе статических изображений, в то время как способность моделей обрабатывать последовательные аудиовизуальные данные остаётся малоизученной. Этот пробел подчёркивает необходимость создания качественного эталона для систематической оценки производительности МБЯМ в условиях, приближенных к реальным. Мы представляем SONIC-O1 — всеобъемлющий, полностью верифицированный человеком эталон, охватывающий 13 реальных диалоговых доменов с 4958 аннотациями и метаданными о демографических характеристиках. SONIC-O1 оценивает МБЯМ по ключевым задачам, включая сводную генерацию текста, ответы на вопросы с множественным выбором и временную локализацию с обоснованием (рассуждением). Эксперименты с закрытыми и открытыми моделями выявили ограничения. Хотя разрыв в точности ответов на вопросы с множественным выбором между двумя семействами моделей относительно невелик, мы наблюдаем существенную разницу в 22,6% по показателю временной локализации между лучшей закрытой и лучшей открытой моделью. Производительность дополнительно снижается для различных демографических групп, что указывает на сохраняющиеся диспропорции в поведении моделей. В целом, SONIC-O1 предоставляет открытый набор средств для оценки темпорально обоснованного и социально устойчивого мультимодального понимания. Мы публикуем SONIC-O1 для обеспечения воспроизводимости и дальнейших исследований: Страница проекта: https://vectorinstitute.github.io/sonic-o1/ Набор данных: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Лидерборд: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
English
Multimodal Large Language Models (MLLMs) are a major focus of recent AI research. However, most prior work focuses on static image understanding, while their ability to process sequential audio-video data remains underexplored. This gap highlights the need for a high-quality benchmark to systematically evaluate MLLM performance in a real-world setting. We introduce SONIC-O1, a comprehensive, fully human-verified benchmark spanning 13 real-world conversational domains with 4,958 annotations and demographic metadata. SONIC-O1 evaluates MLLMs on key tasks, including open-ended summarization, multiple-choice question (MCQ) answering, and temporal localization with supporting rationales (reasoning). Experiments on closed- and open-source models reveal limitations. While the performance gap in MCQ accuracy between two model families is relatively small, we observe a substantial 22.6% performance difference in temporal localization between the best performing closed-source and open-source models. Performance further degrades across demographic groups, indicating persistent disparities in model behavior. Overall, SONIC-O1 provides an open evaluation suite for temporally grounded and socially robust multimodal understanding. We release SONIC-O1 for reproducibility and research: Project page: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
PDF22February 3, 2026