VideoLLaMA 2 : Progrès dans la modélisation spatio-temporelle et la compréhension audio pour les modèles de langage vidéo (Video-LLMs)
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
June 11, 2024
Auteurs: Zesen Cheng, Sicong Leng, Hang Zhang, Yifei Xin, Xin Li, Guanzheng Chen, Yongxin Zhu, Wenqi Zhang, Ziyang Luo, Deli Zhao, Lidong Bing
cs.AI
Résumé
Dans cet article, nous présentons VideoLLaMA 2, un ensemble de modèles de langage de grande taille pour la vidéo (Video-LLMs) conçus pour améliorer la modélisation spatio-temporelle et la compréhension audio dans les tâches orientées vidéo et audio. S'appuyant sur son prédécesseur, VideoLLaMA 2 intègre un connecteur de convolution spatio-temporelle (STC) sur mesure, qui capture efficacement les dynamiques spatiales et temporelles complexes des données vidéo. De plus, nous intégrons une branche audio dans le modèle grâce à un apprentissage conjoint, enrichissant ainsi les capacités de compréhension multimodale du modèle en incorporant de manière fluide les indices audio. Des évaluations approfondies sur des tâches de questions-réponses à choix multiples sur vidéo (MC-VQA), de questions-réponses ouvertes sur vidéo (OE-VQA) et de description de vidéo (VC) démontrent que VideoLLaMA 2 obtient systématiquement des résultats compétitifs parmi les modèles open-source et se rapproche même de certains modèles propriétaires sur plusieurs benchmarks. Par ailleurs, VideoLLaMA 2 montre des améliorations notables sur les benchmarks de questions-réponses audio uniquement et audio-vidéo (AQA & OE-AVQA) par rapport aux modèles existants. Ces avancées soulignent la performance supérieure de VideoLLaMA 2 en matière de compréhension multimodale, établissant ainsi une nouvelle référence pour les systèmes d'analyse vidéo intelligents. Tous les modèles sont rendus publics pour faciliter les recherches ultérieures.
English
In this paper, we present the VideoLLaMA 2, a set of Video Large Language
Models (Video-LLMs) designed to enhance spatial-temporal modeling and audio
understanding in video and audio-oriented tasks. Building upon its predecessor,
VideoLLaMA 2 incorporates a tailor-made Spatial-Temporal Convolution (STC)
connector, which effectively captures the intricate spatial and temporal
dynamics of video data. Additionally, we integrate an Audio Branch into the
model through joint training, thereby enriching the multimodal understanding
capabilities of the model by seamlessly incorporating audio cues. Comprehensive
evaluations on multiple-choice video question answering (MC-VQA), open-ended
video question answering (OE-VQA), and video captioning (VC) tasks demonstrate
that VideoLLaMA 2 consistently achieves competitive results among open-source
models and even gets close to some proprietary models on several benchmarks.
Furthermore, VideoLLaMA 2 exhibits reasonable improvements in audio-only and
audio-video question-answering (AQA & OE-AVQA) benchmarks over existing models.
These advancements underline VideoLLaMA 2's superior performance in multimodal
comprehension, setting a new standard for intelligent video analysis systems.
All models are public to facilitate further research.Summary
AI-Generated Summary