ChatPaper.aiChatPaper

LVOmniBench: Pionierbewertung des Langzeit-Audio-Video-Verständnisses für omnimodale LLMs

LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

March 19, 2026
Autoren: Keda Tao, Yuhua Zheng, Jia Xu, Wenjie Du, Kele Shao, Hesong Wang, Xueyi Chen, Xin Jin, Junhan Zhu, Bohan Yu, Weiqiang Wang, Jian Liu, Can Qin, Yulun Zhang, Ming-Hsuan Yang, Huan Wang
cs.AI

Zusammenfassung

Jüngste Fortschritte bei omnimodalen großen Sprachmodellen (OmniLLMs) haben das Verständnis von Audio- und Videoeingängen erheblich verbessert. Allerdings konzentrieren sich aktuelle Evaluationen primär auf kurze Audio- und Videoclips von 10 Sekunden bis 5 Minuten, was den Anforderungen realer Anwendungen nicht gerecht wird, da Videos typischerweise mehrere zehn Minuten lang sind. Um diese kritische Lücke zu schließen, stellen wir LVOmniBench vor, einen neuen Benchmark, der speziell für das cross-modale Verständnis von langen Audio- und Videoformaten entwickelt wurde. Dieser Datensatz umfasst hochwertige Videos von offenen Plattformen mit reichhaltigen audiovisuellen Dynamiken. Durch strenge manuelle Auswahl und Annotation besteht LVOmniBench aus 275 Videos mit einer Dauer von 10 bis 90 Minuten und 1.014 Frage-Antwort-Paaren. LVOmniBench zielt darauf ab, die Fähigkeiten von OmniLLMs in Bereichen wie Langzeitgedächtnis, temporale Lokalisierung, feinkörniges Verständnis und multimodale Wahrnehmung rigoros zu bewerten. Unsere umfangreiche Auswertung zeigt, dass aktuelle OmniLLMs erhebliche Schwierigkeiten bei der Verarbeitung langer audiovisueller Eingaben haben. Open-Source-Modelle erreichen generell Genauigkeiten unter 35 %, während Gemini 3 Pro eine Spitzengenauigkeit von etwa 65 % erzielt. Wir erwarten, dass dieser Datensatz zusammen mit unseren empirischen Ergebnissen weitere Forschungen und die Entwicklung fortschrittlicher Modelle anregt, die komplexe cross-modale Verständnisprobleme in langen audiovisuellen Kontexten lösen können.
English
Recent advancements in omnimodal large language models (OmniLLMs) have significantly improved the comprehension of audio and video inputs. However, current evaluations primarily focus on short audio and video clips ranging from 10 seconds to 5 minutes, failing to reflect the demands of real-world applications, where videos typically run for tens of minutes. To address this critical gap, we introduce LVOmniBench, a new benchmark designed specifically for the cross-modal comprehension of long-form audio and video. This dataset comprises high-quality videos sourced from open platforms that feature rich audio-visual dynamics. Through rigorous manual selection and annotation, LVOmniBench comprises 275 videos, ranging in duration from 10 to 90 minutes, and 1,014 question-answer (QA) pairs. LVOmniBench aims to rigorously evaluate the capabilities of OmniLLMs across domains, including long-term memory, temporal localization, fine-grained understanding, and multimodal perception. Our extensive evaluation reveals that current OmniLLMs encounter significant challenges when processing extended audio-visual inputs. Open-source models generally achieve accuracies below 35%, whereas the Gemini 3 Pro reaches a peak accuracy of approximately 65%. We anticipate that this dataset, along with our empirical findings, will stimulate further research and the development of advanced models capable of resolving complex cross-modal understanding problems within long-form audio-visual contexts.
PDF251March 21, 2026