OmniVideoBench: Rumo à Avaliação da Compreensão Áudio-Visual para MLLMs Omni
OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs
October 12, 2025
Autores: Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Jiafu Tang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu
cs.AI
Resumo
Os recentes avanços em modelos de linguagem multimodal de grande escala (MLLMs) demonstraram um potencial substancial na compreensão de vídeos. No entanto, os benchmarks existentes falham em avaliar de forma abrangente as capacidades de raciocínio sinérgico entre as modalidades de áudio e visual, muitas vezes negligenciando uma das modalidades ou integrando-as de maneira logicamente inconsistente. Para preencher essa lacuna, introduzimos o OmniVideoBench, um benchmark de grande escala e rigorosamente projetado dedicado a avaliar a compreensão sinérgica de áudio e visual, com forte ênfase na complementaridade das modalidades e na consistência lógica. Especificamente, o OmniVideoBench compreende 1000 pares de perguntas e respostas (QA) de alta qualidade, cada um anotado com traços de raciocínio passo a passo, derivados de 628 vídeos diversos que variam de alguns segundos a 30 minutos, e verificados manualmente para garantir correção completa e unicidade. Além disso, o OmniVideoBench abrange 13 tipos de perguntas cuidadosamente projetados, cobrindo raciocínio temporal, localização espacial, contagem, inferência causal, sumarização e além, capturando assim os desafios essenciais da compreensão de vídeos. A avaliação de múltiplos MLLMs no OmniVideoBench revela uma lacuna pronunciada entre o desempenho do modelo e o raciocínio humano, com modelos de código aberto ficando significativamente atrás de suas contrapartes de código fechado, destacando a dificuldade inerente do verdadeiro raciocínio áudio-visual. Lançaremos o OmniVideoBench para promover o desenvolvimento de MLLMs com capacidades de raciocínio mais fortes e generalizáveis.
English
Recent advances in multimodal large language models (MLLMs) have demonstrated
substantial potential in video understanding. However, existing benchmarks fail
to comprehensively evaluate synergistic reasoning capabilities across audio and
visual modalities, often neglecting either one of the modalities or integrating
them in a logically inconsistent manner. To bridge this gap, we introduce
OmniVideoBench, a large-scale and rigorously designed benchmark dedicated to
assessing synergistic audio-visual understanding, with a strong emphasis on
modality complementarity and logical consistency. Specifically, OmniVideoBench
comprises 1000 high-quality question-answer(QA) pairs, each annotated with
step-by-step reasoning traces, derived from 628 diverse videos ranging from
several seconds to 30 minutes, and manually verified to guarantee complete
correctness and uniqueness. Moreover, OmniVideoBench encompasses 13 carefully
designed question types, covering temporal reasoning, spatial localization,
counting, causal inference, summarization, and beyond, thereby capturing the
essential challenges of video understanding. Evaluation of multiple MLLMs on
OmniVideoBench reveals a pronounced gap between model performance and human
reasoning, with open-source models lagging significantly behind their
closed-source counterparts, underscoring the inherent difficulty of genuine
audio-visual reasoning. We will release OmniVideoBench to foster the
development of MLLMs with stronger and more generalizable reasoning
capabilities.