VideoLLaMA 2: Fortschritte in der räumlich-zeitlichen Modellierung und Audioverarbeitung in Video-LLMs
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
June 11, 2024
Autoren: Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing
cs.AI
Zusammenfassung
In diesem Paper präsentieren wir VideoLLaMA 2, eine Reihe von Video Large Language Models (Video-LLMs), die entwickelt wurden, um die räumlich-zeitliche Modellierung und Audioverständnis bei Video- und Audio-orientierten Aufgaben zu verbessern. Aufbauend auf seinem Vorgänger integriert VideoLLaMA 2 einen maßgeschneiderten Spatial-Temporal Convolution (STC) Connector, der die komplexen räumlichen und zeitlichen Dynamiken von Videodaten effektiv erfasst. Darüber hinaus integrieren wir einen Audio Branch in das Modell durch gemeinsames Training, wodurch die multimodalen Verständnisfähigkeiten des Modells durch nahtlose Integration von Audiohinweisen bereichert werden. Umfassende Evaluationen in Multiple-Choice Video Question Answering (MC-VQA), Open-Ended Video Question Answering (OE-VQA) und Video Captioning (VC) Aufgaben zeigen, dass VideoLLaMA 2 durchweg wettbewerbsfähige Ergebnisse im Vergleich zu Open-Source-Modellen erzielt und sogar einigen proprietären Modellen auf mehreren Benchmarks nahe kommt. Darüber hinaus zeigt VideoLLaMA 2 vernünftige Verbesserungen in Audio-only und Audio-Video Question-Answering (AQA & OE-AVQA) Benchmarks im Vergleich zu bestehenden Modellen. Diese Fortschritte unterstreichen die überlegene Leistung von VideoLLaMA 2 in multimodalem Verständnis und setzen einen neuen Standard für intelligente Videosysteme. Alle Modelle sind öffentlich zugänglich, um weitere Forschung zu erleichtern.
English
In this paper, we present the VideoLLaMA 2, a set of Video Large Language
Models (Video-LLMs) designed to enhance spatial-temporal modeling and audio
understanding in video and audio-oriented tasks. Building upon its predecessor,
VideoLLaMA 2 incorporates a tailor-made Spatial-Temporal Convolution (STC)
connector, which effectively captures the intricate spatial and temporal
dynamics of video data. Additionally, we integrate an Audio Branch into the
model through joint training, thereby enriching the multimodal understanding
capabilities of the model by seamlessly incorporating audio cues. Comprehensive
evaluations on multiple-choice video question answering (MC-VQA), open-ended
video question answering (OE-VQA), and video captioning (VC) tasks demonstrate
that VideoLLaMA 2 consistently achieves competitive results among open-source
models and even gets close to some proprietary models on several benchmarks.
Furthermore, VideoLLaMA 2 exhibits reasonable improvements in audio-only and
audio-video question-answering (AQA & OE-AVQA) benchmarks over existing models.
These advancements underline VideoLLaMA 2's superior performance in multimodal
comprehension, setting a new standard for intelligent video analysis systems.
All models are public to facilitate further research.Summary
AI-Generated Summary