OmniVideoBench: Auf dem Weg zur Bewertung des audiovisuellen Verständnisses für Omni-MLLMs
OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs
October 12, 2025
papers.authors: Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Jiafu Tang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu
cs.AI
papers.abstract
Jüngste Fortschritte in multimodalen großen Sprachmodellen (MLLMs) haben ein erhebliches Potenzial im Bereich des Videoverständnisses gezeigt. Bestehende Benchmarks scheitern jedoch daran, synergetische Denkfähigkeiten über Audio- und visuelle Modalitäten hinweg umfassend zu bewerten, indem sie oft eine der Modalitäten vernachlässigen oder sie auf logisch inkonsistente Weise integrieren. Um diese Lücke zu schließen, führen wir OmniVideoBench ein, einen groß angelegten und sorgfältig konzipierten Benchmark, der der Bewertung des synergetischen Audio-Video-Verständnisses gewidmet ist, mit einem starken Fokus auf Modalitätskomplementarität und logischer Konsistenz. Konkret umfasst OmniVideoBench 1000 hochwertige Frage-Antwort-Paare (QA), die jeweils mit schrittweisen Denkspuren annotiert sind und aus 628 verschiedenen Videos mit einer Dauer von wenigen Sekunden bis zu 30 Minuten abgeleitet wurden. Diese wurden manuell überprüft, um vollständige Korrektheit und Einzigartigkeit zu gewährleisten. Darüber hinaus beinhaltet OmniVideoBench 13 sorgfältig gestaltete Fragentypen, die zeitliches Denken, räumliche Lokalisierung, Zählen, kausale Inferenz, Zusammenfassung und mehr abdecken und damit die wesentlichen Herausforderungen des Videoverständnisses erfassen. Die Bewertung mehrerer MLLMs anhand von OmniVideoBench zeigt eine deutliche Lücke zwischen der Modellleistung und dem menschlichen Denken, wobei Open-Source-Modelle deutlich hinter ihren Closed-Source-Pendants zurückbleiben, was die inhärente Schwierigkeit des echten Audio-Video-Denkens unterstreicht. Wir werden OmniVideoBench veröffentlichen, um die Entwicklung von MLLMs mit stärkeren und generalisierbareren Denkfähigkeiten zu fördern.
English
Recent advances in multimodal large language models (MLLMs) have demonstrated
substantial potential in video understanding. However, existing benchmarks fail
to comprehensively evaluate synergistic reasoning capabilities across audio and
visual modalities, often neglecting either one of the modalities or integrating
them in a logically inconsistent manner. To bridge this gap, we introduce
OmniVideoBench, a large-scale and rigorously designed benchmark dedicated to
assessing synergistic audio-visual understanding, with a strong emphasis on
modality complementarity and logical consistency. Specifically, OmniVideoBench
comprises 1000 high-quality question-answer(QA) pairs, each annotated with
step-by-step reasoning traces, derived from 628 diverse videos ranging from
several seconds to 30 minutes, and manually verified to guarantee complete
correctness and uniqueness. Moreover, OmniVideoBench encompasses 13 carefully
designed question types, covering temporal reasoning, spatial localization,
counting, causal inference, summarization, and beyond, thereby capturing the
essential challenges of video understanding. Evaluation of multiple MLLMs on
OmniVideoBench reveals a pronounced gap between model performance and human
reasoning, with open-source models lagging significantly behind their
closed-source counterparts, underscoring the inherent difficulty of genuine
audio-visual reasoning. We will release OmniVideoBench to foster the
development of MLLMs with stronger and more generalizable reasoning
capabilities.