LVOmniBench : Une évaluation pionnière de la compréhension audio-vidéo longue pour les LLM omnimodaux
LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs
March 19, 2026
Auteurs: Keda Tao, Yuhua Zheng, Jia Xu, Wenjie Du, Kele Shao, Hesong Wang, Xueyi Chen, Xin Jin, Junhan Zhu, Bohan Yu, Weiqiang Wang, Jian Liu, Can Qin, Yulun Zhang, Ming-Hsuan Yang, Huan Wang
cs.AI
Résumé
Les récents progrès des modèles de langage étendus omnimodaux (OmniLLM) ont considérablement amélioré la compréhension des entrées audio et vidéo. Cependant, les évaluations actuelles se concentrent principalement sur de courts clips audio et vidéo d'une durée de 10 secondes à 5 minutes, ne reflétant pas les exigences des applications réelles où les vidéos durent généralement plusieurs dizaines de minutes. Pour combler cette lacune cruciale, nous présentons LVOmniBench, un nouveau benchmark conçu spécifiquement pour l'évaluation de la compréhension cross-modale des contenus audio et vidéo de longue durée. Ce jeu de données comprend des vidéos de haute qualité provenant de plateformes ouvertes, caractérisées par une dynamique audiovisuelle riche. Grâce à une sélection et une annotation manuelles rigoureuses, LVOmniBench contient 275 vidéos, d'une durée de 10 à 90 minutes, et 1 014 paires question-réponse (QA). LVOmniBench vise à évaluer rigoureusement les capacités des OmniLLM dans divers domaines, incluant la mémoire à long terme, la localisation temporelle, la compréhension fine et la perception multimodale. Notre évaluation approfondie révèle que les OmniLLM actuels rencontrent des difficultés significatives lors du traitement d'entrées audiovisuelles étendues. Les modèles open source atteignent généralement des précisions inférieures à 35 %, tandis que Gemini 3 Pro atteint une précision maximale d'environ 65 %. Nous anticipons que ce jeu de données, ainsi que nos résultats empiriques, stimuleront des recherches futures et le développement de modèles avancés capables de résoudre des problèmes complexes de compréhension cross-modale dans des contextes audiovisuels de longue durée.
English
Recent advancements in omnimodal large language models (OmniLLMs) have significantly improved the comprehension of audio and video inputs. However, current evaluations primarily focus on short audio and video clips ranging from 10 seconds to 5 minutes, failing to reflect the demands of real-world applications, where videos typically run for tens of minutes. To address this critical gap, we introduce LVOmniBench, a new benchmark designed specifically for the cross-modal comprehension of long-form audio and video. This dataset comprises high-quality videos sourced from open platforms that feature rich audio-visual dynamics. Through rigorous manual selection and annotation, LVOmniBench comprises 275 videos, ranging in duration from 10 to 90 minutes, and 1,014 question-answer (QA) pairs. LVOmniBench aims to rigorously evaluate the capabilities of OmniLLMs across domains, including long-term memory, temporal localization, fine-grained understanding, and multimodal perception. Our extensive evaluation reveals that current OmniLLMs encounter significant challenges when processing extended audio-visual inputs. Open-source models generally achieve accuracies below 35%, whereas the Gemini 3 Pro reaches a peak accuracy of approximately 65%. We anticipate that this dataset, along with our empirical findings, will stimulate further research and the development of advanced models capable of resolving complex cross-modal understanding problems within long-form audio-visual contexts.