LVOmniBench: 오미모달 LLM을 위한 장기 오디오-비디오 이해 평가의 선도적 기준
LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs
March 19, 2026
저자: Keda Tao, Yuhua Zheng, Jia Xu, Wenjie Du, Kele Shao, Hesong Wang, Xueyi Chen, Xin Jin, Junhan Zhu, Bohan Yu, Weiqiang Wang, Jian Liu, Can Qin, Yulun Zhang, Ming-Hsuan Yang, Huan Wang
cs.AI
초록
옴니모달 대규모 언어 모델(OmniLLMs)의 최근 발전으로 오디오 및 비디오 입력 이해 능력이 크게 향상되었습니다. 그러나 현재 평가는 주로 10초에서 5분에 이르는 짧은 오디오 및 비디오 클립에 집중되어, 실제 응용 프로그램에서 요구되는 수십 분에 이르는 일반적인 비디오 길이를 반영하지 못하고 있습니다. 이러한 중요한 격차를 해결하기 위해 본 연구에서는 장편 오디오 및 비디오의 교차 모달 이해 능력을 평가하기 위해 특별히 설계된 새로운 벤치마크인 LVOmniBench를 소개합니다. 이 데이터셋은 풍부한 시청각 역동성을 특징으로 하는 공개 플랫폼에서 수집한 고품질 비디오로 구성됩니다. 엄격한 수동 선별 및 주석 과정을 통해 LVOmniBench는 10분에서 90분까지 다양한 길이의 275개 비디오와 1,014개의 질문-응답(QA) 쌍을 포함합니다. LVOmniBench는 장기 기억, 시간적 위치 파악, 세밀한 이해, 다중 모달 인식 등 다양한 영역에 걸쳐 OmniLLMs의 능력을 엄격하게 평가하는 것을 목표로 합니다. 광범위한 평가 결과, 현재의 OmniLLMs는 장편 시청각 입력을 처리하는 데 상당한 어려움을 겪는 것으로 나타났습니다. 오픈소스 모델들은 일반적으로 35% 미만의 정확도를 보인 반면, Gemini 3 Pro는 약 65%의 최고 정확도에 도달했습니다. 우리는 이 데이터셋과 실증적 연구 결과가 장편 시청각 콘텐츠 내에서 복잡한 교차 모달 이해 문제를 해결할 수 있는 고급 모델의 개발과 추가 연구를 촉진할 것으로 기대합니다.
English
Recent advancements in omnimodal large language models (OmniLLMs) have significantly improved the comprehension of audio and video inputs. However, current evaluations primarily focus on short audio and video clips ranging from 10 seconds to 5 minutes, failing to reflect the demands of real-world applications, where videos typically run for tens of minutes. To address this critical gap, we introduce LVOmniBench, a new benchmark designed specifically for the cross-modal comprehension of long-form audio and video. This dataset comprises high-quality videos sourced from open platforms that feature rich audio-visual dynamics. Through rigorous manual selection and annotation, LVOmniBench comprises 275 videos, ranging in duration from 10 to 90 minutes, and 1,014 question-answer (QA) pairs. LVOmniBench aims to rigorously evaluate the capabilities of OmniLLMs across domains, including long-term memory, temporal localization, fine-grained understanding, and multimodal perception. Our extensive evaluation reveals that current OmniLLMs encounter significant challenges when processing extended audio-visual inputs. Open-source models generally achieve accuracies below 35%, whereas the Gemini 3 Pro reaches a peak accuracy of approximately 65%. We anticipate that this dataset, along with our empirical findings, will stimulate further research and the development of advanced models capable of resolving complex cross-modal understanding problems within long-form audio-visual contexts.