Video-Panda : Alignement efficace des paramètres pour les modèles de langage vidéo sans encodeur

papers.abstract

Nous présentons une approche efficace sans encodeur pour la compréhension vidéo-langage qui atteint des performances compétitives tout en réduisant significativement la charge computationnelle. Les modèles actuels de vidéo-langage s'appuient généralement sur des encodeurs d'images lourds (300M-1.1B paramètres) ou des encodeurs vidéo (1B-1.4B paramètres), créant un fardeau computationnel substantiel lors du traitement de vidéos multi-images. Notre méthode introduit un nouveau Bloc d'Alignement Spatio-Temporel (STAB) qui traite directement les entrées vidéo sans nécessiter d'encodeurs pré-entraînés tout en n'utilisant que 45M paramètres pour le traitement visuel - au moins une réduction de 6,5 fois par rapport aux approches traditionnelles. L'architecture STAB combine un Encodage Spatio-Temporel Local pour l'extraction de caractéristiques fines, un sous-échantillonnage spatial efficace grâce à une attention apprise et des mécanismes séparés pour modéliser les relations au niveau des images et des vidéos. Notre modèle atteint des performances comparables ou supérieures aux approches basées sur des encodeurs pour la réponse à des questions vidéo ouvertes sur des benchmarks standard. L'évaluation fine de la réponse à des questions vidéo démontre l'efficacité de notre modèle, surpassant les approches basées sur des encodeurs Video-ChatGPT et Video-LLaVA dans des aspects clés comme la justesse et la compréhension temporelle. Des études d'ablation approfondies valident nos choix architecturaux et démontrent l'efficacité de notre approche de modélisation spatio-temporelle tout en atteignant des vitesses de traitement 3 à 4 fois plus rapides que les méthodes précédentes. Le code est disponible sur https://github.com/jh-yi/Video-Panda.

English

We present an efficient encoder-free approach for video-language understanding that achieves competitive performance while significantly reducing computational overhead. Current video-language models typically rely on heavyweight image encoders (300M-1.1B parameters) or video encoders (1B-1.4B parameters), creating a substantial computational burden when processing multi-frame videos. Our method introduces a novel Spatio-Temporal Alignment Block (STAB) that directly processes video inputs without requiring pre-trained encoders while using only 45M parameters for visual processing - at least a 6.5times reduction compared to traditional approaches. The STAB architecture combines Local Spatio-Temporal Encoding for fine-grained feature extraction, efficient spatial downsampling through learned attention and separate mechanisms for modeling frame-level and video-level relationships. Our model achieves comparable or superior performance to encoder-based approaches for open-ended video question answering on standard benchmarks. The fine-grained video question-answering evaluation demonstrates our model's effectiveness, outperforming the encoder-based approaches Video-ChatGPT and Video-LLaVA in key aspects like correctness and temporal understanding. Extensive ablation studies validate our architectural choices and demonstrate the effectiveness of our spatio-temporal modeling approach while achieving 3-4times faster processing speeds than previous methods. Code is available at https://github.com/jh-yi/Video-Panda.

Video-Panda : Alignement efficace des paramètres pour les modèles de langage vidéo sans encodeur

Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models

papers.abstract

Support