ChatPaper.aiChatPaper

OmniVideoBench: в направлении оценки аудиовизуального понимания для Omni MLLMs

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

October 12, 2025
Авторы: Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Jiafu Tang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu
cs.AI

Аннотация

Последние достижения в области мультимодальных больших языковых моделей (MLLMs) продемонстрировали значительный потенциал в понимании видео. Однако существующие тестовые наборы не позволяют всесторонне оценить синергетические способности к рассуждению, охватывающие аудио и визуальные модальности, часто игнорируя одну из них или интегрируя их логически непоследовательно. Чтобы устранить этот пробел, мы представляем OmniVideoBench — масштабный и тщательно разработанный тестовый набор, предназначенный для оценки синергетического понимания аудио и визуальной информации с акцентом на взаимодополняемость модальностей и логическую согласованность. В частности, OmniVideoBench включает 1000 высококачественных пар вопрос-ответ (QA), каждая из которых снабжена пошаговыми траекториями рассуждений, полученными из 628 разнообразных видео длительностью от нескольких секунд до 30 минут и вручную проверенными для гарантии полной корректности и уникальности. Более того, OmniVideoBench охватывает 13 тщательно разработанных типов вопросов, включая временное рассуждение, пространственную локализацию, подсчет, причинно-следственный вывод, суммирование и другие, тем самым охватывая ключевые задачи понимания видео. Оценка нескольких MLLMs на OmniVideoBench выявила значительный разрыв между производительностью моделей и человеческим рассуждением, причем модели с открытым исходным кодом существенно отстают от своих закрытых аналогов, что подчеркивает сложность подлинного аудиовизуального рассуждения. Мы выпустим OmniVideoBench для стимулирования разработки MLLMs с более сильными и обобщаемыми способностями к рассуждению.
English
Recent advances in multimodal large language models (MLLMs) have demonstrated substantial potential in video understanding. However, existing benchmarks fail to comprehensively evaluate synergistic reasoning capabilities across audio and visual modalities, often neglecting either one of the modalities or integrating them in a logically inconsistent manner. To bridge this gap, we introduce OmniVideoBench, a large-scale and rigorously designed benchmark dedicated to assessing synergistic audio-visual understanding, with a strong emphasis on modality complementarity and logical consistency. Specifically, OmniVideoBench comprises 1000 high-quality question-answer(QA) pairs, each annotated with step-by-step reasoning traces, derived from 628 diverse videos ranging from several seconds to 30 minutes, and manually verified to guarantee complete correctness and uniqueness. Moreover, OmniVideoBench encompasses 13 carefully designed question types, covering temporal reasoning, spatial localization, counting, causal inference, summarization, and beyond, thereby capturing the essential challenges of video understanding. Evaluation of multiple MLLMs on OmniVideoBench reveals a pronounced gap between model performance and human reasoning, with open-source models lagging significantly behind their closed-source counterparts, underscoring the inherent difficulty of genuine audio-visual reasoning. We will release OmniVideoBench to foster the development of MLLMs with stronger and more generalizable reasoning capabilities.
PDF442October 14, 2025