LVOmniBench: Pioneirando a Avaliação de Compreensão de Áudio-Vídeo Longo para LLMs Omnimodais
LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs
March 19, 2026
Autores: Keda Tao, Yuhua Zheng, Jia Xu, Wenjie Du, Kele Shao, Hesong Wang, Xueyi Chen, Xin Jin, Junhan Zhu, Bohan Yu, Weiqiang Wang, Jian Liu, Can Qin, Yulun Zhang, Ming-Hsuan Yang, Huan Wang
cs.AI
Resumo
Os recentes avanços nos modelos de linguagem grandes omnimodais (OmniLLMs) melhoraram significativamente a compreensão de entradas de áudio e vídeo. No entanto, as avaliações atuais concentram-se principalmente em clipes de áudio e vídeo curtos, variando de 10 segundos a 5 minutos, não refletindo as demandas de aplicações do mundo real, onde os vídeos normalmente duram dezenas de minutos. Para colmatar esta lacuna crítica, introduzimos o LVOmniBench, um novo benchmark concebido especificamente para a compreensão cross-modal de áudio e vídeo de longa duração. Este conjunto de dados compreende vídeos de alta qualidade provenientes de plataformas abertas que apresentam dinâmicas audiovisuais ricas. Através de uma rigorosa seleção e anotação manual, o LVOmniBench é composto por 275 vídeos, com durações entre 10 e 90 minutos, e 1.014 pares de pergunta-resposta (QA). O LVOmniBench visa avaliar rigorosamente as capacidades dos OmniLLMs em vários domínios, incluindo memória de longo prazo, localização temporal, compreensão refinada e perceção multimodal. A nossa avaliação extensiva revela que os OmniLLMs atuais enfrentam desafios significativos ao processar entradas audiovisuais extensas. Os modelos de código aberto geralmente atingem precisões abaixo de 35%, enquanto o Gemini 3 Pro atinge uma precisão máxima de aproximadamente 65%. Antecipamos que este conjunto de dados, juntamente com as nossas descobertas empíricas, irá estimular mais investigação e o desenvolvimento de modelos avançados capazes de resolver problemas complexos de compreensão cross-modal em contextos de áudio e vídeo de longa duração.
English
Recent advancements in omnimodal large language models (OmniLLMs) have significantly improved the comprehension of audio and video inputs. However, current evaluations primarily focus on short audio and video clips ranging from 10 seconds to 5 minutes, failing to reflect the demands of real-world applications, where videos typically run for tens of minutes. To address this critical gap, we introduce LVOmniBench, a new benchmark designed specifically for the cross-modal comprehension of long-form audio and video. This dataset comprises high-quality videos sourced from open platforms that feature rich audio-visual dynamics. Through rigorous manual selection and annotation, LVOmniBench comprises 275 videos, ranging in duration from 10 to 90 minutes, and 1,014 question-answer (QA) pairs. LVOmniBench aims to rigorously evaluate the capabilities of OmniLLMs across domains, including long-term memory, temporal localization, fine-grained understanding, and multimodal perception. Our extensive evaluation reveals that current OmniLLMs encounter significant challenges when processing extended audio-visual inputs. Open-source models generally achieve accuracies below 35%, whereas the Gemini 3 Pro reaches a peak accuracy of approximately 65%. We anticipate that this dataset, along with our empirical findings, will stimulate further research and the development of advanced models capable of resolving complex cross-modal understanding problems within long-form audio-visual contexts.