ChatPaper.aiChatPaper

OmniVideoBench: Verso una Valutazione della Comprensione Audio-Visiva per i Modelli Multilingue Multimodali (MLLM) Omni

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

October 12, 2025
Autori: Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Jiafu Tang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu
cs.AI

Abstract

I recenti progressi nei modelli linguistici multimodali di grandi dimensioni (MLLMs) hanno dimostrato un potenziale significativo nella comprensione dei video. Tuttavia, i benchmark esistenti non riescono a valutare in modo completo le capacità di ragionamento sinergico tra le modalità audio e visiva, spesso trascurando una delle due modalità o integrandole in modo logicamente incoerente. Per colmare questa lacuna, introduciamo OmniVideoBench, un benchmark su larga scala e rigorosamente progettato dedicato alla valutazione della comprensione sinergica audio-visiva, con una forte enfasi sulla complementarità delle modalità e sulla coerenza logica. Nello specifico, OmniVideoBench comprende 1000 coppie domanda-risposta (QA) di alta qualità, ciascuna annotata con tracce di ragionamento passo-passo, derivate da 628 video diversi che vanno da pochi secondi a 30 minuti, e verificate manualmente per garantire correttezza e unicità complete. Inoltre, OmniVideoBench include 13 tipi di domande accuratamente progettati, che coprono il ragionamento temporale, la localizzazione spaziale, il conteggio, l'inferenza causale, la sintesi e altro ancora, catturando così le sfide essenziali della comprensione dei video. La valutazione di più MLLMs su OmniVideoBench rivela un divario marcato tra le prestazioni del modello e il ragionamento umano, con i modelli open-source che rimangono significativamente indietro rispetto alle loro controparti closed-source, sottolineando la difficoltà intrinseca del ragionamento audio-visivo genuino. Rilasceremo OmniVideoBench per favorire lo sviluppo di MLLMs con capacità di ragionamento più forti e generalizzabili.
English
Recent advances in multimodal large language models (MLLMs) have demonstrated substantial potential in video understanding. However, existing benchmarks fail to comprehensively evaluate synergistic reasoning capabilities across audio and visual modalities, often neglecting either one of the modalities or integrating them in a logically inconsistent manner. To bridge this gap, we introduce OmniVideoBench, a large-scale and rigorously designed benchmark dedicated to assessing synergistic audio-visual understanding, with a strong emphasis on modality complementarity and logical consistency. Specifically, OmniVideoBench comprises 1000 high-quality question-answer(QA) pairs, each annotated with step-by-step reasoning traces, derived from 628 diverse videos ranging from several seconds to 30 minutes, and manually verified to guarantee complete correctness and uniqueness. Moreover, OmniVideoBench encompasses 13 carefully designed question types, covering temporal reasoning, spatial localization, counting, causal inference, summarization, and beyond, thereby capturing the essential challenges of video understanding. Evaluation of multiple MLLMs on OmniVideoBench reveals a pronounced gap between model performance and human reasoning, with open-source models lagging significantly behind their closed-source counterparts, underscoring the inherent difficulty of genuine audio-visual reasoning. We will release OmniVideoBench to foster the development of MLLMs with stronger and more generalizable reasoning capabilities.
PDF452October 14, 2025