LVOmniBench: Evaluación pionera de comprensión de audio-video largo para LLMs omnimodales

Resumen

Los recientes avances en modelos lingüísticos grandes omnimodales (OmniLLM) han mejorado significativamente la comprensión de entradas de audio y vídeo. Sin embargo, las evaluaciones actuales se centran principalmente en fragmentos de audio y vídeo cortos, que oscilan entre 10 segundos y 5 minutos, sin reflejar las demandas de las aplicaciones del mundo real, donde los vídeos suelen durar decenas de minutos. Para abordar esta brecha crítica, presentamos LVOmniBench, un nuevo benchmark diseñado específicamente para la comprensión cross-modal de audio y vídeo de formato largo. Este conjunto de datos comprende vídeos de alta calidad obtenidos de plataformas abiertas que presentan una rica dinámica audiovisual. Mediante una rigurosa selección y anotación manual, LVOmniBench consta de 275 vídeos, con una duración de entre 10 y 90 minutos, y 1.014 pares de preguntas y respuestas (QA). LVOmniBench tiene como objetivo evaluar rigurosamente las capacidades de los OmniLLM en diversos dominios, incluidos la memoria a largo plazo, la localización temporal, la comprensión de grano fino y la percepción multimodal. Nuestra evaluación exhaustiva revela que los OmniLLM actuales encuentran desafíos significativos al procesar entradas audiovisuales extensas. Los modelos de código abierto generalmente alcanzan precisiones por debajo del 35%, mientras que Gemini 3 Pro alcanza una precisión máxima de aproximadamente el 65%. Anticipamos que este conjunto de datos, junto con nuestros hallazgos empíricos, estimulará futuras investigaciones y el desarrollo de modelos avanzados capaces de resolver problemas complejos de comprensión cross-modal en contextos audiovisuales de formato largo.

English

Recent advancements in omnimodal large language models (OmniLLMs) have significantly improved the comprehension of audio and video inputs. However, current evaluations primarily focus on short audio and video clips ranging from 10 seconds to 5 minutes, failing to reflect the demands of real-world applications, where videos typically run for tens of minutes. To address this critical gap, we introduce LVOmniBench, a new benchmark designed specifically for the cross-modal comprehension of long-form audio and video. This dataset comprises high-quality videos sourced from open platforms that feature rich audio-visual dynamics. Through rigorous manual selection and annotation, LVOmniBench comprises 275 videos, ranging in duration from 10 to 90 minutes, and 1,014 question-answer (QA) pairs. LVOmniBench aims to rigorously evaluate the capabilities of OmniLLMs across domains, including long-term memory, temporal localization, fine-grained understanding, and multimodal perception. Our extensive evaluation reveals that current OmniLLMs encounter significant challenges when processing extended audio-visual inputs. Open-source models generally achieve accuracies below 35%, whereas the Gemini 3 Pro reaches a peak accuracy of approximately 65%. We anticipate that this dataset, along with our empirical findings, will stimulate further research and the development of advanced models capable of resolving complex cross-modal understanding problems within long-form audio-visual contexts.

LVOmniBench: Evaluación pionera de comprensión de audio-video largo para LLMs omnimodales

LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

Resumen

Support