VideoLLaMA 2: Vooruitgang in Ruimtelijk-Temporele Modellering en Audiobegrip in Video-LLM's
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
June 11, 2024
Auteurs: Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing
cs.AI
Samenvatting
In dit artikel presenteren we VideoLLaMA 2, een set Video Large Language Models (Video-LLMs) die zijn ontworpen om ruimtelijk-temporele modellering en audio-begrip te verbeteren in video- en audio-gerichte taken. Voortbouwend op zijn voorganger, integreert VideoLLaMA 2 een op maat gemaakte Spatial-Temporal Convolution (STC)-connector, die effectief de complexe ruimtelijke en temporele dynamiek van videodata vastlegt. Daarnaast integreren we een Audio Branch in het model via gezamenlijke training, waardoor de multimodale begripscapaciteiten van het model worden verrijkt door audio-signalen naadloos te incorporeren. Uitgebreide evaluaties op meerkeuzevragen over video (MC-VQA), open-einde video-vragen (OE-VQA) en video-onderschrijving (VC) taken tonen aan dat VideoLLaMA 2 consistent competitieve resultaten behaalt onder open-source modellen en zelfs dicht in de buurt komt van enkele propriëtaire modellen op verschillende benchmarks. Bovendien laat VideoLLaMA 2 redelijke verbeteringen zien in audio-only en audio-video vraag-antwoord (AQA & OE-AVQA) benchmarks ten opzichte van bestaande modellen. Deze vooruitgang onderstreept de superieure prestaties van VideoLLaMA 2 in multimodaal begrip, wat een nieuwe standaard zet voor intelligente video-analysesystemen. Alle modellen zijn openbaar gemaakt om verder onderzoek te faciliteren.
English
In this paper, we present the VideoLLaMA 2, a set of Video Large Language
Models (Video-LLMs) designed to enhance spatial-temporal modeling and audio
understanding in video and audio-oriented tasks. Building upon its predecessor,
VideoLLaMA 2 incorporates a tailor-made Spatial-Temporal Convolution (STC)
connector, which effectively captures the intricate spatial and temporal
dynamics of video data. Additionally, we integrate an Audio Branch into the
model through joint training, thereby enriching the multimodal understanding
capabilities of the model by seamlessly incorporating audio cues. Comprehensive
evaluations on multiple-choice video question answering (MC-VQA), open-ended
video question answering (OE-VQA), and video captioning (VC) tasks demonstrate
that VideoLLaMA 2 consistently achieves competitive results among open-source
models and even gets close to some proprietary models on several benchmarks.
Furthermore, VideoLLaMA 2 exhibits reasonable improvements in audio-only and
audio-video question-answering (AQA & OE-AVQA) benchmarks over existing models.
These advancements underline VideoLLaMA 2's superior performance in multimodal
comprehension, setting a new standard for intelligent video analysis systems.
All models are public to facilitate further research.