ChatPaper.aiChatPaper

OmniVideoBench: 오디오-비주얼 이해 평가를 위한 Omni MLLMs 방향성

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

October 12, 2025
저자: Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Jiafu Tang, Zhenghao Song, Dingling Zhang, Ying He, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu
cs.AI

초록

최근 멀티모달 대형 언어 모델(MLLMs)의 발전은 비디오 이해 분야에서 상당한 잠재력을 보여주고 있다. 그러나 기존 벤치마크는 오디오와 시각적 모달리티 간의 시너지적 추론 능력을 포괄적으로 평가하지 못하며, 종종 한쪽 모달리티를 소홀히 하거나 논리적으로 일관되지 않은 방식으로 통합하는 경우가 많다. 이러한 격차를 해소하기 위해, 우리는 모달리티 상호 보완성과 논리적 일관성을 강조한 시너지적 오디오-비디오 이해 평가를 위한 대규모 및 엄격하게 설계된 벤치마크인 OmniVideoBench를 소개한다. 구체적으로, OmniVideoBench는 628개의 다양한 비디오(몇 초에서 30분까지)에서 도출된 1000개의 고품질 질문-답변(QA) 쌍으로 구성되며, 각각 단계별 추론 흔적이 주석 처리되어 완전한 정확성과 독창성을 보장하기 위해 수동으로 검증되었다. 또한, OmniVideoBench는 시간적 추론, 공간적 위치 파악, 계수, 인과적 추론, 요약 등을 포함한 13가지 신중하게 설계된 질문 유형을 포괄하여 비디오 이해의 핵심적인 도전 과제를 포착한다. OmniVideoBench에서 여러 MLLMs을 평가한 결과, 모델 성능과 인간의 추론 사이에 현저한 격차가 나타났으며, 오픈소스 모델이 클로즈드소스 모델에 비해 크게 뒤처지는 것으로 나타나 진정한 오디오-비디오 추론의 본질적인 어려움을 강조한다. 우리는 더 강력하고 일반화 가능한 추론 능력을 가진 MLLMs의 개발을 촉진하기 위해 OmniVideoBench를 공개할 예정이다.
English
Recent advances in multimodal large language models (MLLMs) have demonstrated substantial potential in video understanding. However, existing benchmarks fail to comprehensively evaluate synergistic reasoning capabilities across audio and visual modalities, often neglecting either one of the modalities or integrating them in a logically inconsistent manner. To bridge this gap, we introduce OmniVideoBench, a large-scale and rigorously designed benchmark dedicated to assessing synergistic audio-visual understanding, with a strong emphasis on modality complementarity and logical consistency. Specifically, OmniVideoBench comprises 1000 high-quality question-answer(QA) pairs, each annotated with step-by-step reasoning traces, derived from 628 diverse videos ranging from several seconds to 30 minutes, and manually verified to guarantee complete correctness and uniqueness. Moreover, OmniVideoBench encompasses 13 carefully designed question types, covering temporal reasoning, spatial localization, counting, causal inference, summarization, and beyond, thereby capturing the essential challenges of video understanding. Evaluation of multiple MLLMs on OmniVideoBench reveals a pronounced gap between model performance and human reasoning, with open-source models lagging significantly behind their closed-source counterparts, underscoring the inherent difficulty of genuine audio-visual reasoning. We will release OmniVideoBench to foster the development of MLLMs with stronger and more generalizable reasoning capabilities.
PDF442October 14, 2025