VideoLLaMA 2: 비디오-LLM에서 시공간 모델링 및 오디오 이해의 발전
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
June 11, 2024
저자: Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing
cs.AI
초록
본 논문에서는 비디오 및 오디오 중심 작업에서 시공간 모델링과 오디오 이해를 강화하기 위해 설계된 Video Large Language Models(Video-LLMs)인 VideoLLaMA 2를 소개합니다. 전작을 기반으로 한 VideoLLaMA 2는 비디오 데이터의 복잡한 시공간 역학을 효과적으로 포착하는 맞춤형 시공간 컨볼루션(STC) 커넥터를 통합했습니다. 또한, 공동 학습을 통해 모델에 오디오 브랜치를 통합함으로써 오디오 신호를 원활하게 포함시켜 모델의 다중모드 이해 능력을 풍부하게 했습니다. 객관식 비디오 질의응답(MC-VQA), 자유형 비디오 질의응답(OE-VQA), 비디오 캡셔닝(VC) 작업에 대한 포괄적인 평가 결과, VideoLLaMA 2는 오픈소스 모델 중에서 꾸준히 경쟁력 있는 성과를 달성했으며, 여러 벤치마크에서 일부 독점 모델에 근접하는 성능을 보였습니다. 더 나아가, VideoLLaMA 2는 기존 모델 대비 오디오 전용 및 오디오-비디오 질의응답(AQA & OE-AVQA) 벤치마크에서 합리적인 개선을 보였습니다. 이러한 발전은 VideoLLaMA 2의 우수한 다중모드 이해 성능을 강조하며, 지능형 비디오 분석 시스템에 새로운 기준을 제시합니다. 모든 모델은 추가 연구를 촉진하기 위해 공개되었습니다.
English
In this paper, we present the VideoLLaMA 2, a set of Video Large Language
Models (Video-LLMs) designed to enhance spatial-temporal modeling and audio
understanding in video and audio-oriented tasks. Building upon its predecessor,
VideoLLaMA 2 incorporates a tailor-made Spatial-Temporal Convolution (STC)
connector, which effectively captures the intricate spatial and temporal
dynamics of video data. Additionally, we integrate an Audio Branch into the
model through joint training, thereby enriching the multimodal understanding
capabilities of the model by seamlessly incorporating audio cues. Comprehensive
evaluations on multiple-choice video question answering (MC-VQA), open-ended
video question answering (OE-VQA), and video captioning (VC) tasks demonstrate
that VideoLLaMA 2 consistently achieves competitive results among open-source
models and even gets close to some proprietary models on several benchmarks.
Furthermore, VideoLLaMA 2 exhibits reasonable improvements in audio-only and
audio-video question-answering (AQA & OE-AVQA) benchmarks over existing models.
These advancements underline VideoLLaMA 2's superior performance in multimodal
comprehension, setting a new standard for intelligent video analysis systems.
All models are public to facilitate further research.Summary
AI-Generated Summary