OmniVideoBench : Vers une évaluation de la compréhension audio-visuelle pour les MLLM Omni

papers.abstract

Les récents progrès dans les modèles de langage multimodaux à grande échelle (MLLMs) ont démontré un potentiel considérable dans la compréhension vidéo. Cependant, les benchmarks existants ne parviennent pas à évaluer de manière exhaustive les capacités de raisonnement synergétique entre les modalités audio et visuelles, négligeant souvent l'une des modalités ou les intégrant de manière logiquement incohérente. Pour combler cette lacune, nous introduisons OmniVideoBench, un benchmark à grande échelle et rigoureusement conçu, dédié à l'évaluation de la compréhension audio-visuelle synergétique, avec un accent fort sur la complémentarité des modalités et la cohérence logique. Plus précisément, OmniVideoBench comprend 1000 paires question-réponse (QA) de haute qualité, chacune annotée avec des traces de raisonnement étape par étape, dérivées de 628 vidéos diverses allant de quelques secondes à 30 minutes, et vérifiées manuellement pour garantir une exactitude et une unicité complètes. De plus, OmniVideoBench englobe 13 types de questions soigneusement conçus, couvrant le raisonnement temporel, la localisation spatiale, le comptage, l'inférence causale, la synthèse, et au-delà, capturant ainsi les défis essentiels de la compréhension vidéo. L'évaluation de plusieurs MLLMs sur OmniVideoBench révèle un écart marqué entre les performances des modèles et le raisonnement humain, les modèles open-source étant nettement en retard par rapport à leurs homologues closed-source, soulignant la difficulté inhérente d'un véritable raisonnement audio-visuel. Nous publierons OmniVideoBench pour favoriser le développement de MLLMs dotés de capacités de raisonnement plus fortes et plus généralisables.

English

Recent advances in multimodal large language models (MLLMs) have demonstrated substantial potential in video understanding. However, existing benchmarks fail to comprehensively evaluate synergistic reasoning capabilities across audio and visual modalities, often neglecting either one of the modalities or integrating them in a logically inconsistent manner. To bridge this gap, we introduce OmniVideoBench, a large-scale and rigorously designed benchmark dedicated to assessing synergistic audio-visual understanding, with a strong emphasis on modality complementarity and logical consistency. Specifically, OmniVideoBench comprises 1000 high-quality question-answer(QA) pairs, each annotated with step-by-step reasoning traces, derived from 628 diverse videos ranging from several seconds to 30 minutes, and manually verified to guarantee complete correctness and uniqueness. Moreover, OmniVideoBench encompasses 13 carefully designed question types, covering temporal reasoning, spatial localization, counting, causal inference, summarization, and beyond, thereby capturing the essential challenges of video understanding. Evaluation of multiple MLLMs on OmniVideoBench reveals a pronounced gap between model performance and human reasoning, with open-source models lagging significantly behind their closed-source counterparts, underscoring the inherent difficulty of genuine audio-visual reasoning. We will release OmniVideoBench to foster the development of MLLMs with stronger and more generalizable reasoning capabilities.

OmniVideoBench : Vers une évaluation de la compréhension audio-visuelle pour les MLLM Omni

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

papers.abstract

Support