Video-LLaMA: Een Instructie-afgestemd Audio-Visueel Taalmodel voor Videobegrip
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
June 5, 2023
Auteurs: Hang Zhang, Xin Li, Lidong Bing
cs.AI
Samenvatting
We presenteren Video-LLaMA, een multimodaal framework dat Large Language Models (LLMs) uitrust met de mogelijkheid om zowel visuele als auditieve inhoud in video's te begrijpen. Video-LLaMA start cross-modale training op basis van bevroren, vooraf getrainde visuele en audio-encoders en bevroren LLMs. In tegenstelling tot eerdere vision-LLMs die zich richten op het begrijpen van statische afbeeldingen, zoals MiniGPT-4~zhu2023minigpt en LLaVA~liu2023visualit, pakt Video-LLaMA twee uitdagingen aan in videobegrip: (1) het vastleggen van temporele veranderingen in visuele scènes, (2) het integreren van audio-visuele signalen. Voor de eerste uitdaging stellen we Video Q-former voor om de vooraf getrainde beeldencoder uit te breiden naar een video-encoder en introduceren we een video-naar-tekst generatietaak om video-taalcorrespondentie te leren. Voor de tweede uitdaging maken we gebruik van ImageBind~girdhar2023imagebind als de vooraf getrainde audio-encoder, die uitstekend presteert in het afstemmen van verschillende modaliteiten op een gemeenschappelijke embeddingruimte. Vervolgens introduceren we een Audio Q-former om auditieve query-tokens te leren. Om de uitvoer van zowel de visuele als audio-encoder af te stemmen op de embeddingruimte van de LLM, trainen we Video-LLaMA op een grootschalige visuele bijschriftdataset en een hoogwaardige visuele-instructie-afstemmingsdataset. We ontdekten dat Video-LLaMA het vermogen toont om video-inhoud waar te nemen en te begrijpen, en zinvolle reacties genereert die gebaseerd zijn op de visuele en auditieve informatie in de video's. Dit benadrukt het potentieel van Video-LLaMA als een veelbelovend prototype voor audio-visuele AI-assistenten. Onze code, vooraf getrainde model en demo zijn beschikbaar op https://github.com/DAMO-NLP-SG/Video-LLaMA.
English
We present Video-LLaMA, a multi-modal framework that empowers Large Language
Models (LLMs) with the capability of understanding both visual and auditory
content in the video. Video-LLaMA bootstraps cross-modal training from the
frozen pre-trained visual \& audio encoders and the frozen LLMs. Unlike
previous vision- LLMs that focus on static image comprehensions such as
MiniGPT-4~zhu2023minigpt and LLaVA~liu2023visualit, Video-LLaMA
tackles two challenges in video understanding: (1) capturing the temporal
changes in visual scenes, (2) integrating audio-visual signals. For the first
challenge, we propose Video Q-former to extend the pre-trained image encoder to
a video encoder and introduce a video-to-text generation task to learn
video-language correspondence. For the second challenge, we leverage
ImageBind~girdhar2023imagebind as the pre-trained audio encoder which
performs exceptionally well in aligning different modalities to a common
embedding space. And then introduce an Audio Q-former to learn auditory query
tokens. To align the output of both visual \& audio encoder with LLM's
embedding space, we train Video-LLaMA on a large-scale vision caption dataset
and a hign-quantity vision-instruction-tuning dataset. We found Video-LLaMA
showcases the ability to perceive and comprehend video content, generating
meaningful responses that are grounded in the visual and auditory information
present in the videos. This highlights the potential of Video-LLaMA as a
promising prototype for audio-visual AI assistants. Our code, pre-trained
model, and demo are available at
https://github.com/DAMO-NLP-SG/Video-LLaMA.