Video-LLaMA : Un modèle de langage audio-visuel ajusté par instruction pour la compréhension vidéo
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
June 5, 2023
Auteurs: Hang Zhang, Xin Li, Lidong Bing
cs.AI
Résumé
Nous présentons Video-LLaMA, un cadre multi-modal qui confère aux grands modèles de langage (LLMs) la capacité de comprendre à la fois le contenu visuel et auditif des vidéos. Video-LLaMA amorce un entraînement inter-modal à partir d'encodeurs visuels et audio pré-entraînés figés, ainsi que de LLMs figés. Contrairement aux précédents LLMs visuels qui se concentrent sur la compréhension d'images statiques, tels que MiniGPT-4~zhu2023minigpt et LLaVA~liu2023visualit, Video-LLaMA relève deux défis dans la compréhension des vidéos : (1) capturer les changements temporels dans les scènes visuelles, (2) intégrer les signaux audio-visuels. Pour le premier défi, nous proposons Video Q-former pour étendre l'encodeur d'images pré-entraîné à un encodeur de vidéos et introduisons une tâche de génération vidéo-texte pour apprendre la correspondance entre la vidéo et le langage. Pour le second défi, nous exploitons ImageBind~girdhar2023imagebind comme encodeur audio pré-entraîné, qui excelle dans l'alignement de différentes modalités dans un espace d'embedding commun. Nous introduisons ensuite un Audio Q-former pour apprendre les tokens de requête auditifs. Pour aligner la sortie des encodeurs visuel et audio avec l'espace d'embedding du LLM, nous entraînons Video-LLaMA sur un vaste ensemble de données de légendes visuelles et un ensemble de données de réglage d'instructions visuelles de haute qualité. Nous constatons que Video-LLaMA démontre la capacité de percevoir et de comprendre le contenu vidéo, générant des réponses significatives ancrées dans les informations visuelles et auditives présentes dans les vidéos. Cela souligne le potentiel de Video-LLaMA en tant que prototype prometteur pour des assistants IA audio-visuels. Notre code, modèle pré-entraîné et démonstration sont disponibles à l'adresse suivante : https://github.com/DAMO-NLP-SG/Video-LLaMA.
English
We present Video-LLaMA, a multi-modal framework that empowers Large Language
Models (LLMs) with the capability of understanding both visual and auditory
content in the video. Video-LLaMA bootstraps cross-modal training from the
frozen pre-trained visual \& audio encoders and the frozen LLMs. Unlike
previous vision- LLMs that focus on static image comprehensions such as
MiniGPT-4~zhu2023minigpt and LLaVA~liu2023visualit, Video-LLaMA
tackles two challenges in video understanding: (1) capturing the temporal
changes in visual scenes, (2) integrating audio-visual signals. For the first
challenge, we propose Video Q-former to extend the pre-trained image encoder to
a video encoder and introduce a video-to-text generation task to learn
video-language correspondence. For the second challenge, we leverage
ImageBind~girdhar2023imagebind as the pre-trained audio encoder which
performs exceptionally well in aligning different modalities to a common
embedding space. And then introduce an Audio Q-former to learn auditory query
tokens. To align the output of both visual \& audio encoder with LLM's
embedding space, we train Video-LLaMA on a large-scale vision caption dataset
and a hign-quantity vision-instruction-tuning dataset. We found Video-LLaMA
showcases the ability to perceive and comprehend video content, generating
meaningful responses that are grounded in the visual and auditory information
present in the videos. This highlights the potential of Video-LLaMA as a
promising prototype for audio-visual AI assistants. Our code, pre-trained
model, and demo are available at
https://github.com/DAMO-NLP-SG/Video-LLaMA.