VideoLLaMA 2: Развитие пространственно-временного моделирования и аудио понимания в видео-LLM.
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
June 11, 2024
Авторы: Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing
cs.AI
Аннотация
В данной статье мы представляем VideoLLaMA 2, набор Video Large Language Models (Video-LLM), разработанных для улучшения пространственно-временного моделирования и понимания звука в видео- и аудио-ориентированных задачах. На основе своего предшественника VideoLLaMA 2 включает в себя специально разработанный пространственно-временной сверточный (STC) коннектор, который эффективно улавливает сложную пространственную и временную динамику видеоданных. Кроме того, мы интегрируем в модель аудио-ветвь через совместное обучение, тем самым обогащая мультимодальные возможности понимания модели путем бесшовного включения аудио-подсказок. Комплексные оценки на задачах многовариантного видео-вопросно-ответного тестирования (MC-VQA), открытого видео-вопросно-ответного тестирования (OE-VQA) и описания видео (VC) демонстрируют, что VideoLLaMA 2 последовательно достигает конкурентоспособных результатов среди моделей с открытым исходным кодом и даже приближается к некоторым закрытым моделям на нескольких показателях. Более того, VideoLLaMA 2 показывает разумные улучшения в задачах только аудио и аудио-видео вопросно-ответного тестирования (AQA и OE-AVQA) по сравнению с существующими моделями. Эти достижения подчеркивают превосходное исполнение VideoLLaMA 2 в мультимодальном понимании, устанавливая новый стандарт для интеллектуальных систем анализа видео. Все модели являются общедоступными для облегчения дальнейших исследований.
English
In this paper, we present the VideoLLaMA 2, a set of Video Large Language
Models (Video-LLMs) designed to enhance spatial-temporal modeling and audio
understanding in video and audio-oriented tasks. Building upon its predecessor,
VideoLLaMA 2 incorporates a tailor-made Spatial-Temporal Convolution (STC)
connector, which effectively captures the intricate spatial and temporal
dynamics of video data. Additionally, we integrate an Audio Branch into the
model through joint training, thereby enriching the multimodal understanding
capabilities of the model by seamlessly incorporating audio cues. Comprehensive
evaluations on multiple-choice video question answering (MC-VQA), open-ended
video question answering (OE-VQA), and video captioning (VC) tasks demonstrate
that VideoLLaMA 2 consistently achieves competitive results among open-source
models and even gets close to some proprietary models on several benchmarks.
Furthermore, VideoLLaMA 2 exhibits reasonable improvements in audio-only and
audio-video question-answering (AQA & OE-AVQA) benchmarks over existing models.
These advancements underline VideoLLaMA 2's superior performance in multimodal
comprehension, setting a new standard for intelligent video analysis systems.
All models are public to facilitate further research.Summary
AI-Generated Summary