OmniVideoBench:オムニMLLMのための音声視覚理解評価に向けて
OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs
October 12, 2025
著者: Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Jiafu Tang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu
cs.AI
要旨
近年のマルチモーダル大規模言語モデル(MLLMs)の進展は、映像理解において大きな可能性を示している。しかし、既存のベンチマークは、音声と視覚のモダリティ間の相補的な推論能力を包括的に評価するには至っておらず、しばしばどちらかのモダリティを無視するか、論理的に一貫しない形で統合している。このギャップを埋めるため、我々はOmniVideoBenchを導入する。これは、モダリティの相補性と論理的一貫性を強く重視し、音声と視覚の相乗的な理解を評価するために設計された大規模で厳密なベンチマークである。具体的には、OmniVideoBenchは1000の高品質な質問応答(QA)ペアで構成され、各ペアには段階的な推論トレースが注釈付けされており、数秒から30分までの多様な628本の映像から派生し、完全な正確性と独自性を保証するために手動で検証されている。さらに、OmniVideoBenchは、時間的推論、空間的局所化、計数、因果推論、要約などを含む13の慎重に設計された質問タイプを網羅しており、映像理解の本質的な課題を捉えている。OmniVideoBenchを用いた複数のMLLMsの評価では、モデルの性能と人間の推論との間に顕著なギャップが明らかになり、オープンソースモデルはクローズドソースモデルに大きく遅れをとっており、真の音声視覚推論の難しさが浮き彫りになっている。我々は、より強力で汎用性の高い推論能力を持つMLLMsの開発を促進するために、OmniVideoBenchを公開する予定である。
English
Recent advances in multimodal large language models (MLLMs) have demonstrated
substantial potential in video understanding. However, existing benchmarks fail
to comprehensively evaluate synergistic reasoning capabilities across audio and
visual modalities, often neglecting either one of the modalities or integrating
them in a logically inconsistent manner. To bridge this gap, we introduce
OmniVideoBench, a large-scale and rigorously designed benchmark dedicated to
assessing synergistic audio-visual understanding, with a strong emphasis on
modality complementarity and logical consistency. Specifically, OmniVideoBench
comprises 1000 high-quality question-answer(QA) pairs, each annotated with
step-by-step reasoning traces, derived from 628 diverse videos ranging from
several seconds to 30 minutes, and manually verified to guarantee complete
correctness and uniqueness. Moreover, OmniVideoBench encompasses 13 carefully
designed question types, covering temporal reasoning, spatial localization,
counting, causal inference, summarization, and beyond, thereby capturing the
essential challenges of video understanding. Evaluation of multiple MLLMs on
OmniVideoBench reveals a pronounced gap between model performance and human
reasoning, with open-source models lagging significantly behind their
closed-source counterparts, underscoring the inherent difficulty of genuine
audio-visual reasoning. We will release OmniVideoBench to foster the
development of MLLMs with stronger and more generalizable reasoning
capabilities.