LVOmniBench: Перспективная система оценки понимания длинных аудиовизуальных данных для омнимодальных больших языковых моделей

Аннотация

Последние достижения в области универсальных больших языковых моделей (OmniLLM) значительно улучшили понимание аудио- и видеовходов. Однако текущие оценки в основном сосредоточены на коротких аудио- и видеороликах длительностью от 10 секунд до 5 минут, что не отражает требований реальных приложений, где видео обычно длятся десятки минут. Чтобы устранить этот критический пробел, мы представляем LVOmniBench — новый эталонный тест, специально разработанный для кросс-модального понимания длинных аудио- и видеоформатов. Этот набор данных включает высококачественные видео из открытых платформ, характеризующиеся богатой аудиовизуальной динамикой. Благодаря тщательному ручному отбору и аннотированию, LVOmniBench содержит 275 видео продолжительностью от 10 до 90 минут и 1014 пар «вопрос-ответ». Цель LVOmniBench — всесторонне оценить возможности OmniLLM в таких областях, как долговременная память, временная локализация, детальное понимание и мультимодальное восприятие. Наши масштабные оценки показывают, что современные OmniLLM сталкиваются со значительными трудностями при обработке длинных аудиовизуальных входных данных. Модели с открытым исходным кодом обычно достигают точности ниже 35%, в то время как Gemini 3 Pro достигает пиковой точности около 65%. Мы ожидаем, что этот набор данных вместе с нашими эмпирическими выводами стимулирует дальнейшие исследования и разработку продвинутых моделей, способных решать сложные задачи кросс-модального понимания в контексте длинных аудиовизуальных материалов.

English

Recent advancements in omnimodal large language models (OmniLLMs) have significantly improved the comprehension of audio and video inputs. However, current evaluations primarily focus on short audio and video clips ranging from 10 seconds to 5 minutes, failing to reflect the demands of real-world applications, where videos typically run for tens of minutes. To address this critical gap, we introduce LVOmniBench, a new benchmark designed specifically for the cross-modal comprehension of long-form audio and video. This dataset comprises high-quality videos sourced from open platforms that feature rich audio-visual dynamics. Through rigorous manual selection and annotation, LVOmniBench comprises 275 videos, ranging in duration from 10 to 90 minutes, and 1,014 question-answer (QA) pairs. LVOmniBench aims to rigorously evaluate the capabilities of OmniLLMs across domains, including long-term memory, temporal localization, fine-grained understanding, and multimodal perception. Our extensive evaluation reveals that current OmniLLMs encounter significant challenges when processing extended audio-visual inputs. Open-source models generally achieve accuracies below 35%, whereas the Gemini 3 Pro reaches a peak accuracy of approximately 65%. We anticipate that this dataset, along with our empirical findings, will stimulate further research and the development of advanced models capable of resolving complex cross-modal understanding problems within long-form audio-visual contexts.

LVOmniBench: Перспективная система оценки понимания длинных аудиовизуальных данных для омнимодальных больших языковых моделей

LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

Аннотация

Support