LVOmniBench: Valutazione pionieristica della comprensione audio-video lunga per LLM omnimodali

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni omnimodali (OmniLLM) hanno migliorato significativamente la comprensione degli input audio e video. Tuttavia, le valutazioni attuali si concentrano principalmente su clip audio e video brevi, da 10 secondi a 5 minuti, non riuscendo a riflettere le esigenze delle applicazioni nel mondo reale, dove i video hanno tipicamente una durata di decine di minuti. Per colmare questa lacuna critica, introduciamo LVOmniBench, un nuovo benchmark progettato specificamente per la comprensione cross-modale di audio e video di lunga durata. Questo dataset è composto da video di alta qualità provenienti da piattaforme aperte che presentano una ricca dinamica audiovisiva. Attraverso una rigorosa selezione e annotazione manuale, LVOmniBench comprende 275 video, con durata compresa tra 10 e 90 minuti, e 1.014 coppie domanda-risposta (QA). LVOmniBench mira a valutare rigorosamente le capacità degli OmniLLM in diversi ambiti, tra cui memoria a lungo termine, localizzazione temporale, comprensione fine-granulare e percezione multimodale. La nostra valutazione estensiva rivela che gli attuali OmniLLM incontrano sfide significative nell'elaborazione di input audiovisivi estesi. I modelli open-source generalmente raggiungono accuratezze inferiori al 35%, mentre il Gemini 3 Pro raggiunge un'accuratezza massima di circa il 65%. Anticipiamo che questo dataset, insieme ai nostri risultati empirici, stimolerà ulteriori ricerche e lo sviluppo di modelli avanzati in grado di risolvere complessi problemi di comprensione cross-modale in contesti audiovisivi di lunga durata.

English

Recent advancements in omnimodal large language models (OmniLLMs) have significantly improved the comprehension of audio and video inputs. However, current evaluations primarily focus on short audio and video clips ranging from 10 seconds to 5 minutes, failing to reflect the demands of real-world applications, where videos typically run for tens of minutes. To address this critical gap, we introduce LVOmniBench, a new benchmark designed specifically for the cross-modal comprehension of long-form audio and video. This dataset comprises high-quality videos sourced from open platforms that feature rich audio-visual dynamics. Through rigorous manual selection and annotation, LVOmniBench comprises 275 videos, ranging in duration from 10 to 90 minutes, and 1,014 question-answer (QA) pairs. LVOmniBench aims to rigorously evaluate the capabilities of OmniLLMs across domains, including long-term memory, temporal localization, fine-grained understanding, and multimodal perception. Our extensive evaluation reveals that current OmniLLMs encounter significant challenges when processing extended audio-visual inputs. Open-source models generally achieve accuracies below 35%, whereas the Gemini 3 Pro reaches a peak accuracy of approximately 65%. We anticipate that this dataset, along with our empirical findings, will stimulate further research and the development of advanced models capable of resolving complex cross-modal understanding problems within long-form audio-visual contexts.

LVOmniBench: Valutazione pionieristica della comprensione audio-video lunga per LLM omnimodali

LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

Abstract

Support