Video-LLaMA: Ein instruktionsfeinabgestimmtes Audio-Visuelles Sprachmodell für das Verständnis von Videos
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
June 5, 2023
Autoren: Hang Zhang, Xin Li, Lidong Bing
cs.AI
Zusammenfassung
Wir präsentieren Video-LLaMA, ein multimodales Framework, das Large Language Models (LLMs) die Fähigkeit verleiht, sowohl visuelle als auch auditive Inhalte in Videos zu verstehen. Video-LLaMA startet das Cross-Modal-Training mit eingefrorenen, vortrainierten visuellen und auditiven Encodern sowie eingefrorenen LLMs. Im Gegensatz zu früheren Vision-LLMs, die sich auf das Verständnis statischer Bilder wie MiniGPT-4~zhu2023minigpt und LLaVA~liu2023visualit konzentrieren, adressiert Video-LLaMA zwei Herausforderungen beim Video-Verständnis: (1) die Erfassung zeitlicher Veränderungen in visuellen Szenen und (2) die Integration von audiovisuellen Signalen. Für die erste Herausforderung schlagen wir den Video Q-former vor, um den vortrainierten Bild-Encoder zu einem Video-Encoder zu erweitern, und führen eine Video-zu-Text-Generierungsaufgabe ein, um die Video-Sprache-Korrespondenz zu lernen. Für die zweite Herausforderung nutzen wir ImageBind~girdhar2023imagebind als vortrainierten Audio-Encoder, der besonders gut darin ist, verschiedene Modalitäten in einen gemeinsamen Einbettungsraum auszurichten. Anschließend führen wir einen Audio Q-former ein, um auditive Abfrage-Token zu lernen. Um die Ausgaben sowohl des visuellen als auch des auditiven Encoders mit dem Einbettungsraum des LLM abzugleichen, trainieren wir Video-LLaMA auf einem groß angelegten Vision-Caption-Datensatz und einem hochwertigen Vision-Instruction-Tuning-Datensatz. Wir fanden heraus, dass Video-LLaMA die Fähigkeit zeigt, Videoinhalte wahrzunehmen und zu verstehen, und sinnvolle Antworten generiert, die auf den visuellen und auditiven Informationen in den Videos basieren. Dies unterstreicht das Potenzial von Video-LLaMA als vielversprechenden Prototyp für audiovisuelle KI-Assistenten. Unser Code, das vortrainierte Modell und die Demo sind verfügbar unter https://github.com/DAMO-NLP-SG/Video-LLaMA.
English
We present Video-LLaMA, a multi-modal framework that empowers Large Language
Models (LLMs) with the capability of understanding both visual and auditory
content in the video. Video-LLaMA bootstraps cross-modal training from the
frozen pre-trained visual \& audio encoders and the frozen LLMs. Unlike
previous vision- LLMs that focus on static image comprehensions such as
MiniGPT-4~zhu2023minigpt and LLaVA~liu2023visualit, Video-LLaMA
tackles two challenges in video understanding: (1) capturing the temporal
changes in visual scenes, (2) integrating audio-visual signals. For the first
challenge, we propose Video Q-former to extend the pre-trained image encoder to
a video encoder and introduce a video-to-text generation task to learn
video-language correspondence. For the second challenge, we leverage
ImageBind~girdhar2023imagebind as the pre-trained audio encoder which
performs exceptionally well in aligning different modalities to a common
embedding space. And then introduce an Audio Q-former to learn auditory query
tokens. To align the output of both visual \& audio encoder with LLM's
embedding space, we train Video-LLaMA on a large-scale vision caption dataset
and a hign-quantity vision-instruction-tuning dataset. We found Video-LLaMA
showcases the ability to perceive and comprehend video content, generating
meaningful responses that are grounded in the visual and auditory information
present in the videos. This highlights the potential of Video-LLaMA as a
promising prototype for audio-visual AI assistants. Our code, pre-trained
model, and demo are available at
https://github.com/DAMO-NLP-SG/Video-LLaMA.