LVOmniBench:オムニモーダルLLMのための長尺音声・映像理解評価の先駆的基盤
LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs
March 19, 2026
著者: Keda Tao, Yuhua Zheng, Jia Xu, Wenjie Du, Kele Shao, Hesong Wang, Xueyi Chen, Xin Jin, Junhan Zhu, Bohan Yu, Weiqiang Wang, Jian Liu, Can Qin, Yulun Zhang, Ming-Hsuan Yang, Huan Wang
cs.AI
要旨
オムニモーダル大規模言語モデル(OmniLLM)の最近の進展により、音声・映像入力の理解能力が大幅に向上している。しかし、現行の評価は主に10秒から5分程度の短い音声・映像クリップに焦点を当てており、実際の応用で一般的な数十分に及ぶ映像コンテンツへの対応が求められる現実的なニーズを反映しきれていない。この重要な課題に対処するため、我々は長尺音声・映像のクロスモーダル理解に特化した新たなベンチマーク「LVOmniBench」を提案する。本データセットは、オープンプラットフォームから収集した豊富な視聴覚的ダイナミクスを備えた高品質な映像で構成されている。厳格な手動選定とアノテーションを経て、LVOmniBenchは10分から90分の長さの275本の映像と1,014組の質問応答(QA)ペアを含む。本ベンチマークは、OmniLLMの長期的記憶、時間的定位、細粒度理解、マルチモーダル知覚といった領域横断的な能力を厳密に評価することを目的としている。大規模な評価実験により、現行のOmniLLMが長時間の視聴覚入力を処理する際に重大な課題に直面することが明らかになった。オープンソースモデルは概ね35%未満の精度に留まるのに対し、Gemini 3 Proは約65%の最高精度を達成している。本データセットと実証的知見が、長尺音声・映像文脈における複雑なクロスモーダル理解課題を解決する高度なモデルの研究開発を促進することを期待する。
English
Recent advancements in omnimodal large language models (OmniLLMs) have significantly improved the comprehension of audio and video inputs. However, current evaluations primarily focus on short audio and video clips ranging from 10 seconds to 5 minutes, failing to reflect the demands of real-world applications, where videos typically run for tens of minutes. To address this critical gap, we introduce LVOmniBench, a new benchmark designed specifically for the cross-modal comprehension of long-form audio and video. This dataset comprises high-quality videos sourced from open platforms that feature rich audio-visual dynamics. Through rigorous manual selection and annotation, LVOmniBench comprises 275 videos, ranging in duration from 10 to 90 minutes, and 1,014 question-answer (QA) pairs. LVOmniBench aims to rigorously evaluate the capabilities of OmniLLMs across domains, including long-term memory, temporal localization, fine-grained understanding, and multimodal perception. Our extensive evaluation reveals that current OmniLLMs encounter significant challenges when processing extended audio-visual inputs. Open-source models generally achieve accuracies below 35%, whereas the Gemini 3 Pro reaches a peak accuracy of approximately 65%. We anticipate that this dataset, along with our empirical findings, will stimulate further research and the development of advanced models capable of resolving complex cross-modal understanding problems within long-form audio-visual contexts.