ChatPaper.aiChatPaper

Video-LLaMA : Un modèle de langage audio-visuel ajusté par instruction pour la compréhension vidéo

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

June 5, 2023
Auteurs: Hang Zhang, Xin Li, Lidong Bing
cs.AI

Résumé

Nous présentons Video-LLaMA, un cadre multi-modal qui confère aux grands modèles de langage (LLMs) la capacité de comprendre à la fois le contenu visuel et auditif des vidéos. Video-LLaMA amorce un entraînement inter-modal à partir d'encodeurs visuels et audio pré-entraînés figés, ainsi que de LLMs figés. Contrairement aux précédents LLMs visuels qui se concentrent sur la compréhension d'images statiques, tels que MiniGPT-4~zhu2023minigpt et LLaVA~liu2023visualit, Video-LLaMA relève deux défis dans la compréhension des vidéos : (1) capturer les changements temporels dans les scènes visuelles, (2) intégrer les signaux audio-visuels. Pour le premier défi, nous proposons Video Q-former pour étendre l'encodeur d'images pré-entraîné à un encodeur de vidéos et introduisons une tâche de génération vidéo-texte pour apprendre la correspondance entre la vidéo et le langage. Pour le second défi, nous exploitons ImageBind~girdhar2023imagebind comme encodeur audio pré-entraîné, qui excelle dans l'alignement de différentes modalités dans un espace d'embedding commun. Nous introduisons ensuite un Audio Q-former pour apprendre les tokens de requête auditifs. Pour aligner la sortie des encodeurs visuel et audio avec l'espace d'embedding du LLM, nous entraînons Video-LLaMA sur un vaste ensemble de données de légendes visuelles et un ensemble de données de réglage d'instructions visuelles de haute qualité. Nous constatons que Video-LLaMA démontre la capacité de percevoir et de comprendre le contenu vidéo, générant des réponses significatives ancrées dans les informations visuelles et auditives présentes dans les vidéos. Cela souligne le potentiel de Video-LLaMA en tant que prototype prometteur pour des assistants IA audio-visuels. Notre code, modèle pré-entraîné et démonstration sont disponibles à l'adresse suivante : https://github.com/DAMO-NLP-SG/Video-LLaMA.
English
We present Video-LLaMA, a multi-modal framework that empowers Large Language Models (LLMs) with the capability of understanding both visual and auditory content in the video. Video-LLaMA bootstraps cross-modal training from the frozen pre-trained visual \& audio encoders and the frozen LLMs. Unlike previous vision- LLMs that focus on static image comprehensions such as MiniGPT-4~zhu2023minigpt and LLaVA~liu2023visualit, Video-LLaMA tackles two challenges in video understanding: (1) capturing the temporal changes in visual scenes, (2) integrating audio-visual signals. For the first challenge, we propose Video Q-former to extend the pre-trained image encoder to a video encoder and introduce a video-to-text generation task to learn video-language correspondence. For the second challenge, we leverage ImageBind~girdhar2023imagebind as the pre-trained audio encoder which performs exceptionally well in aligning different modalities to a common embedding space. And then introduce an Audio Q-former to learn auditory query tokens. To align the output of both visual \& audio encoder with LLM's embedding space, we train Video-LLaMA on a large-scale vision caption dataset and a hign-quantity vision-instruction-tuning dataset. We found Video-LLaMA showcases the ability to perceive and comprehend video content, generating meaningful responses that are grounded in the visual and auditory information present in the videos. This highlights the potential of Video-LLaMA as a promising prototype for audio-visual AI assistants. Our code, pre-trained model, and demo are available at https://github.com/DAMO-NLP-SG/Video-LLaMA.
PDF198December 15, 2024