Video-Panda : Alignement efficace des paramètres pour les modèles de langage vidéo sans encodeur
Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models
December 24, 2024
Auteurs: Jinhui Yi, Syed Talal Wasim, Yanan Luo, Muzammal Naseer, Juergen Gall
cs.AI
Résumé
Nous présentons une approche efficace sans encodeur pour la compréhension vidéo-langage qui atteint des performances compétitives tout en réduisant significativement la charge computationnelle. Les modèles actuels de vidéo-langage s'appuient généralement sur des encodeurs d'images lourds (300M-1.1B paramètres) ou des encodeurs vidéo (1B-1.4B paramètres), créant un fardeau computationnel substantiel lors du traitement de vidéos multi-images. Notre méthode introduit un nouveau Bloc d'Alignement Spatio-Temporel (STAB) qui traite directement les entrées vidéo sans nécessiter d'encodeurs pré-entraînés tout en n'utilisant que 45M paramètres pour le traitement visuel - au moins une réduction de 6,5 fois par rapport aux approches traditionnelles. L'architecture STAB combine un Encodage Spatio-Temporel Local pour l'extraction de caractéristiques fines, un sous-échantillonnage spatial efficace grâce à une attention apprise et des mécanismes séparés pour modéliser les relations au niveau des images et des vidéos. Notre modèle atteint des performances comparables ou supérieures aux approches basées sur des encodeurs pour la réponse à des questions vidéo ouvertes sur des benchmarks standard. L'évaluation fine de la réponse à des questions vidéo démontre l'efficacité de notre modèle, surpassant les approches basées sur des encodeurs Video-ChatGPT et Video-LLaVA dans des aspects clés comme la justesse et la compréhension temporelle. Des études d'ablation approfondies valident nos choix architecturaux et démontrent l'efficacité de notre approche de modélisation spatio-temporelle tout en atteignant des vitesses de traitement 3 à 4 fois plus rapides que les méthodes précédentes. Le code est disponible sur https://github.com/jh-yi/Video-Panda.
English
We present an efficient encoder-free approach for video-language
understanding that achieves competitive performance while significantly
reducing computational overhead. Current video-language models typically rely
on heavyweight image encoders (300M-1.1B parameters) or video encoders (1B-1.4B
parameters), creating a substantial computational burden when processing
multi-frame videos. Our method introduces a novel Spatio-Temporal Alignment
Block (STAB) that directly processes video inputs without requiring pre-trained
encoders while using only 45M parameters for visual processing - at least a
6.5times reduction compared to traditional approaches. The STAB architecture
combines Local Spatio-Temporal Encoding for fine-grained feature extraction,
efficient spatial downsampling through learned attention and separate
mechanisms for modeling frame-level and video-level relationships. Our model
achieves comparable or superior performance to encoder-based approaches for
open-ended video question answering on standard benchmarks. The fine-grained
video question-answering evaluation demonstrates our model's effectiveness,
outperforming the encoder-based approaches Video-ChatGPT and Video-LLaVA in key
aspects like correctness and temporal understanding. Extensive ablation studies
validate our architectural choices and demonstrate the effectiveness of our
spatio-temporal modeling approach while achieving 3-4times faster processing
speeds than previous methods. Code is available at
https://github.com/jh-yi/Video-Panda.