Video-LLaMA: Un Modello Linguistico Audio-Visuale Ottimizzato per Istruzioni per la Comprensione dei Video
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
June 5, 2023
Autori: Hang Zhang, Xin Li, Lidong Bing
cs.AI
Abstract
Presentiamo Video-LLaMA, un framework multimodale che conferisce ai Large Language Models (LLMs) la capacità di comprendere sia il contenuto visivo che quello uditivo nei video. Video-LLaMA avvia l'addestramento cross-modale partendo da encoder visivi e audio pre-addestrati e congelati, insieme a LLMs anch'essi congelati. A differenza dei precedenti vision-LLMs che si concentrano sulla comprensione di immagini statiche, come MiniGPT-4~zhu2023minigpt e LLaVA~liu2023visualit, Video-LLaMA affronta due sfide nella comprensione dei video: (1) catturare i cambiamenti temporali nelle scene visive, (2) integrare i segnali audio-visivi. Per la prima sfida, proponiamo Video Q-former per estendere l'encoder di immagini pre-addestrato a un encoder di video e introduciamo un compito di generazione video-to-text per apprendere la corrispondenza video-linguaggio. Per la seconda sfida, sfruttiamo ImageBind~girdhar2023imagebind come encoder audio pre-addestrato, che si dimostra eccezionalmente efficace nell'allineare diverse modalità in uno spazio di embedding comune. Introduciamo quindi un Audio Q-former per apprendere token di query uditive. Per allineare l'output sia dell'encoder visivo che di quello audio con lo spazio di embedding del LLM, addestriamo Video-LLaMA su un dataset su larga scala di descrizioni visive e su un dataset di alta qualità per il tuning delle istruzioni visive. Abbiamo riscontrato che Video-LLaMA dimostra la capacità di percepire e comprendere il contenuto video, generando risposte significative che si basano sulle informazioni visive e uditive presenti nei video. Ciò evidenzia il potenziale di Video-LLaMA come un promettente prototipo per assistenti AI audio-visivi. Il nostro codice, il modello pre-addestrato e la demo sono disponibili all'indirizzo https://github.com/DAMO-NLP-SG/Video-LLaMA.
English
We present Video-LLaMA, a multi-modal framework that empowers Large Language
Models (LLMs) with the capability of understanding both visual and auditory
content in the video. Video-LLaMA bootstraps cross-modal training from the
frozen pre-trained visual \& audio encoders and the frozen LLMs. Unlike
previous vision- LLMs that focus on static image comprehensions such as
MiniGPT-4~zhu2023minigpt and LLaVA~liu2023visualit, Video-LLaMA
tackles two challenges in video understanding: (1) capturing the temporal
changes in visual scenes, (2) integrating audio-visual signals. For the first
challenge, we propose Video Q-former to extend the pre-trained image encoder to
a video encoder and introduce a video-to-text generation task to learn
video-language correspondence. For the second challenge, we leverage
ImageBind~girdhar2023imagebind as the pre-trained audio encoder which
performs exceptionally well in aligning different modalities to a common
embedding space. And then introduce an Audio Q-former to learn auditory query
tokens. To align the output of both visual \& audio encoder with LLM's
embedding space, we train Video-LLaMA on a large-scale vision caption dataset
and a hign-quantity vision-instruction-tuning dataset. We found Video-LLaMA
showcases the ability to perceive and comprehend video content, generating
meaningful responses that are grounded in the visual and auditory information
present in the videos. This highlights the potential of Video-LLaMA as a
promising prototype for audio-visual AI assistants. Our code, pre-trained
model, and demo are available at
https://github.com/DAMO-NLP-SG/Video-LLaMA.