Video-LLaMA: 비디오 이해를 위한 지시어 튜닝 오디오-비주얼 언어 모델
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding
June 5, 2023
저자: Hang Zhang, Xin Li, Lidong Bing
cs.AI
초록
우리는 비디오의 시각적 및 청각적 콘텐츠를 이해할 수 있는 능력을 대형 언어 모델(LLMs)에 부여하는 다중 모달 프레임워크인 Video-LLaMA를 소개합니다. Video-LLaMA는 고정된 사전 학습된 시각 및 오디오 인코더와 고정된 LLMs로부터 크로스 모달 학습을 부트스트랩합니다. MiniGPT-4~zhu2023minigpt 및 LLaVA~liu2023visualit과 같은 이전의 시각-LLMs가 정적 이미지 이해에 초점을 맞춘 것과 달리, Video-LLaMA는 비디오 이해에서 두 가지 과제를 해결합니다: (1) 시각적 장면의 시간적 변화 포착, (2) 오디오-시각적 신호 통합. 첫 번째 과제를 위해, 우리는 사전 학습된 이미지 인코더를 비디오 인코더로 확장하기 위해 Video Q-former를 제안하고, 비디오-언어 대응을 학습하기 위해 비디오-텍스트 생성 작업을 도입합니다. 두 번째 과제를 위해, 우리는 다양한 모달리티를 공통 임베딩 공간에 정렬하는 데 탁월한 성능을 보이는 ImageBind~girdhar2023imagebind를 사전 학습된 오디오 인코더로 활용합니다. 그리고 청각적 쿼리 토큰을 학습하기 위해 Audio Q-former를 도입합니다. 시각 및 오디오 인코더의 출력을 LLM의 임베딩 공간에 정렬하기 위해, 우리는 대규모 시각 캡션 데이터셋과 고품질 시각-지시-튜닝 데이터셋에서 Video-LLaMA를 학습시킵니다. 우리는 Video-LLaMA가 비디오 콘텐츠를 지각하고 이해하며, 비디오에 존재하는 시각적 및 청각적 정보에 기반한 의미 있는 응답을 생성하는 능력을 보여준다는 것을 발견했습니다. 이는 Video-LLaMA가 오디오-시각적 AI 어시스턴트로서의 유망한 프로토타입으로서의 잠재력을 강조합니다. 우리의 코드, 사전 학습된 모델, 데모는 https://github.com/DAMO-NLP-SG/Video-LLaMA에서 확인할 수 있습니다.
English
We present Video-LLaMA, a multi-modal framework that empowers Large Language
Models (LLMs) with the capability of understanding both visual and auditory
content in the video. Video-LLaMA bootstraps cross-modal training from the
frozen pre-trained visual \& audio encoders and the frozen LLMs. Unlike
previous vision- LLMs that focus on static image comprehensions such as
MiniGPT-4~zhu2023minigpt and LLaVA~liu2023visualit, Video-LLaMA
tackles two challenges in video understanding: (1) capturing the temporal
changes in visual scenes, (2) integrating audio-visual signals. For the first
challenge, we propose Video Q-former to extend the pre-trained image encoder to
a video encoder and introduce a video-to-text generation task to learn
video-language correspondence. For the second challenge, we leverage
ImageBind~girdhar2023imagebind as the pre-trained audio encoder which
performs exceptionally well in aligning different modalities to a common
embedding space. And then introduce an Audio Q-former to learn auditory query
tokens. To align the output of both visual \& audio encoder with LLM's
embedding space, we train Video-LLaMA on a large-scale vision caption dataset
and a hign-quantity vision-instruction-tuning dataset. We found Video-LLaMA
showcases the ability to perceive and comprehend video content, generating
meaningful responses that are grounded in the visual and auditory information
present in the videos. This highlights the potential of Video-LLaMA as a
promising prototype for audio-visual AI assistants. Our code, pre-trained
model, and demo are available at
https://github.com/DAMO-NLP-SG/Video-LLaMA.