OmniVideoBench: Hacia la Evaluación de la Comprensión Audio-Visual para MLLMs Omni

Resumen

Los recientes avances en los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han demostrado un potencial considerable en la comprensión de videos. Sin embargo, los puntos de referencia existentes no logran evaluar de manera integral las capacidades de razonamiento sinérgico a través de las modalidades de audio y visuales, a menudo descuidando una de las modalidades o integrándolas de manera lógicamente inconsistente. Para cerrar esta brecha, presentamos OmniVideoBench, un punto de referencia de gran escala y rigurosamente diseñado dedicado a evaluar la comprensión sinérgica de audio y visuales, con un fuerte énfasis en la complementariedad de modalidades y la consistencia lógica. Específicamente, OmniVideoBench comprende 1000 pares de preguntas y respuestas (QA) de alta calidad, cada uno anotado con trazas de razonamiento paso a paso, derivados de 628 videos diversos que van desde varios segundos hasta 30 minutos, y verificados manualmente para garantizar su total corrección y unicidad. Además, OmniVideoBench abarca 13 tipos de preguntas cuidadosamente diseñadas, que cubren razonamiento temporal, localización espacial, conteo, inferencia causal, resumen y más, capturando así los desafíos esenciales de la comprensión de videos. La evaluación de múltiples MLLMs en OmniVideoBench revela una brecha pronunciada entre el rendimiento del modelo y el razonamiento humano, con los modelos de código abierto quedando significativamente rezagados respecto a sus contrapartes de código cerrado, subrayando la inherente dificultad del razonamiento genuino de audio y visuales. Publicaremos OmniVideoBench para fomentar el desarrollo de MLLMs con capacidades de razonamiento más fuertes y generalizables.

English

Recent advances in multimodal large language models (MLLMs) have demonstrated substantial potential in video understanding. However, existing benchmarks fail to comprehensively evaluate synergistic reasoning capabilities across audio and visual modalities, often neglecting either one of the modalities or integrating them in a logically inconsistent manner. To bridge this gap, we introduce OmniVideoBench, a large-scale and rigorously designed benchmark dedicated to assessing synergistic audio-visual understanding, with a strong emphasis on modality complementarity and logical consistency. Specifically, OmniVideoBench comprises 1000 high-quality question-answer(QA) pairs, each annotated with step-by-step reasoning traces, derived from 628 diverse videos ranging from several seconds to 30 minutes, and manually verified to guarantee complete correctness and uniqueness. Moreover, OmniVideoBench encompasses 13 carefully designed question types, covering temporal reasoning, spatial localization, counting, causal inference, summarization, and beyond, thereby capturing the essential challenges of video understanding. Evaluation of multiple MLLMs on OmniVideoBench reveals a pronounced gap between model performance and human reasoning, with open-source models lagging significantly behind their closed-source counterparts, underscoring the inherent difficulty of genuine audio-visual reasoning. We will release OmniVideoBench to foster the development of MLLMs with stronger and more generalizable reasoning capabilities.

OmniVideoBench: Hacia la Evaluación de la Comprensión Audio-Visual para MLLMs Omni

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

Resumen

Support