Video-LLaMA: Инструктивно-настроенная аудиовизуальная языковая модель для понимания видео
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
June 5, 2023
Авторы: Hang Zhang, Xin Li, Lidong Bing
cs.AI
Аннотация
Мы представляем Video-LLaMA, мультимодальную платформу, которая наделяет крупные языковые модели (LLM) способностью понимать как визуальный, так и аудиоконтент в видео. Video-LLaMA инициализирует кросс-модальное обучение с использованием замороженных предобученных визуальных и аудио-энкодеров, а также замороженных LLM. В отличие от предыдущих моделей, таких как MiniGPT-4~zhu2023minigpt и LLaVA~liu2023visualit, которые сосредоточены на понимании статических изображений, Video-LLaMA решает две задачи в понимании видео: (1) захват временных изменений в визуальных сценах, (2) интеграция аудиовизуальных сигналов. Для первой задачи мы предлагаем Video Q-former, который расширяет предобученный энкодер изображений до видео-энкодера, и вводим задачу генерации текста из видео для изучения соответствия между видео и языком. Для второй задачи мы используем ImageBind~girdhar2023imagebind в качестве предобученного аудио-энкодера, который демонстрирует исключительную эффективность в выравнивании различных модальностей в общем пространстве эмбеддингов. Затем мы вводим Audio Q-former для изучения аудио-запросных токенов. Чтобы выровнять выходные данные как визуального, так и аудио-энкодера с пространством эмбеддингов LLM, мы обучаем Video-LLaMA на крупномасштабном наборе данных с описаниями изображений и высококачественном наборе данных для настройки инструкций на основе визуальной информации. Мы обнаружили, что Video-LLaMA демонстрирует способность воспринимать и понимать видеоконтент, генерируя осмысленные ответы, основанные на визуальной и аудиоинформации, присутствующей в видео. Это подчеркивает потенциал Video-LLaMA как перспективного прототипа для аудиовизуальных ИИ-ассистентов. Наш код, предобученная модель и демо доступны по адресу https://github.com/DAMO-NLP-SG/Video-LLaMA.
English
We present Video-LLaMA, a multi-modal framework that empowers Large Language
Models (LLMs) with the capability of understanding both visual and auditory
content in the video. Video-LLaMA bootstraps cross-modal training from the
frozen pre-trained visual \& audio encoders and the frozen LLMs. Unlike
previous vision- LLMs that focus on static image comprehensions such as
MiniGPT-4~zhu2023minigpt and LLaVA~liu2023visualit, Video-LLaMA
tackles two challenges in video understanding: (1) capturing the temporal
changes in visual scenes, (2) integrating audio-visual signals. For the first
challenge, we propose Video Q-former to extend the pre-trained image encoder to
a video encoder and introduce a video-to-text generation task to learn
video-language correspondence. For the second challenge, we leverage
ImageBind~girdhar2023imagebind as the pre-trained audio encoder which
performs exceptionally well in aligning different modalities to a common
embedding space. And then introduce an Audio Q-former to learn auditory query
tokens. To align the output of both visual \& audio encoder with LLM's
embedding space, we train Video-LLaMA on a large-scale vision caption dataset
and a hign-quantity vision-instruction-tuning dataset. We found Video-LLaMA
showcases the ability to perceive and comprehend video content, generating
meaningful responses that are grounded in the visual and auditory information
present in the videos. This highlights the potential of Video-LLaMA as a
promising prototype for audio-visual AI assistants. Our code, pre-trained
model, and demo are available at
https://github.com/DAMO-NLP-SG/Video-LLaMA.