LVOmniBench: Baanbrekende evaluatie van lang audiovisueel begrip voor omnimodale LLM's

Samenvatting

Recente ontwikkelingen in omnimodale grote taalmodellen (OmniLLM's) hebben het begrip van audio- en videobestanden aanzienlijk verbeterd. Huidige evaluaties richten zich echter voornamelijk op korte audio- en videofragmenten van 10 seconden tot 5 minuten, waardoor ze niet voldoen aan de eisen van praktijktoepassingen, waar video's doorgaans tientallen minuten duren. Om dit kritieke hiaat te adresseren, introduceren we LVOmniBench, een nieuwe benchmark die specifiek is ontworpen voor de kruismodale begripsvorming van lange audio- en videoformats. Deze dataset omvat hoogwaardige video's afkomstig van open platformen, die rijke audiovisuele dynamiek vertonen. Via rigoureuze handmatige selectie en annotatie bestaat LVOmniBench uit 275 video's met een duur van 10 tot 90 minuten en 1.014 vraag-antwoordparen (QA-paren). LVOmniBench heeft tot doel de capaciteiten van OmniLLM's grondig te evalueren op domeinen zoals langetermijngeheugen, temporele lokalisatie, fijnmazig begrip en multimodale perceptie. Onze uitgebreide evaluatie toont aan dat huidige OmniLLM's aanzienlijke uitdagingen ondervinden bij het verwerken van uitgebreide audiovisuele invoer. Open-source modellen behalen over het algemeen nauwkeurigheden onder de 35%, terwijl de Gemini 3 Pro een pieknauwkeurigheid van ongeveer 65% bereikt. Wij verwachten dat deze dataset, samen met onze empirische bevindingen, verder onderzoek en de ontwikkeling van geavanceerde modellen zal stimuleren die in staat zijn complexe kruismodale begripsproblemen in lange audiovisuele contexten op te lossen.

English

Recent advancements in omnimodal large language models (OmniLLMs) have significantly improved the comprehension of audio and video inputs. However, current evaluations primarily focus on short audio and video clips ranging from 10 seconds to 5 minutes, failing to reflect the demands of real-world applications, where videos typically run for tens of minutes. To address this critical gap, we introduce LVOmniBench, a new benchmark designed specifically for the cross-modal comprehension of long-form audio and video. This dataset comprises high-quality videos sourced from open platforms that feature rich audio-visual dynamics. Through rigorous manual selection and annotation, LVOmniBench comprises 275 videos, ranging in duration from 10 to 90 minutes, and 1,014 question-answer (QA) pairs. LVOmniBench aims to rigorously evaluate the capabilities of OmniLLMs across domains, including long-term memory, temporal localization, fine-grained understanding, and multimodal perception. Our extensive evaluation reveals that current OmniLLMs encounter significant challenges when processing extended audio-visual inputs. Open-source models generally achieve accuracies below 35%, whereas the Gemini 3 Pro reaches a peak accuracy of approximately 65%. We anticipate that this dataset, along with our empirical findings, will stimulate further research and the development of advanced models capable of resolving complex cross-modal understanding problems within long-form audio-visual contexts.

LVOmniBench: Baanbrekende evaluatie van lang audiovisueel begrip voor omnimodale LLM's

LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

Samenvatting

Support