SlowFast-LLaVA : Une base solide sans entraînement pour les modèles de langage de grande taille appliqués à la vidéo
SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models
July 22, 2024
Auteurs: Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
cs.AI
Résumé
Nous proposons SlowFast-LLaVA (ou SF-LLaVA en abrégé), un modèle de langage de grande taille (LLM) vidéo sans apprentissage supplémentaire, capable de capturer conjointement la sémantique spatiale détaillée et le contexte temporel à long terme sans dépasser le budget de tokens des LLM couramment utilisés. Cela est réalisé en utilisant une conception à deux flux SlowFast des entrées pour les LLM vidéo afin d'agréger les caractéristiques des images vidéo échantillonnées de manière efficace. Plus précisément, le chemin Slow extrait les caractéristiques à un faible taux de trames tout en conservant autant de détails spatiaux que possible (par exemple, avec 24x24 tokens), tandis que le chemin Fast opère à un taux de trames élevé mais utilise un pas de pooling spatial plus grand (par exemple, sous-échantillonnage 6x) pour se concentrer sur les indices de mouvement. En conséquence, cette conception nous permet de capturer adéquatement à la fois les caractéristiques spatiales et temporelles qui sont bénéfiques pour comprendre les détails tout au long de la vidéo. Les résultats expérimentaux montrent que SF-LLaVA surpasse les méthodes existantes sans apprentissage sur une large gamme de tâches vidéo. Sur certains benchmarks, il atteint des performances comparables, voire meilleures, par rapport aux LLM vidéo de pointe qui sont affinés sur des ensembles de données vidéo.
English
We propose SlowFast-LLaVA (or SF-LLaVA for short), a training-free video
large language model (LLM) that can jointly capture the detailed spatial
semantics and long-range temporal context without exceeding the token budget of
commonly used LLMs. This is realized by using a two-stream SlowFast design of
inputs for Video LLMs to aggregate features from sampled video frames in an
effective way. Specifically, the Slow pathway extracts features at a low frame
rate while keeping as many spatial details as possible (e.g., with 24x24
tokens), and the Fast pathway operates on a high frame rate but uses a larger
spatial pooling stride (e.g., downsampling 6x) to focus on the motion cues. As
a result, this design allows us to adequately capture both spatial and temporal
features that are beneficial for understanding details along the video.
Experimental results show that SF-LLaVA outperforms existing training-free
methods on a wide range of video tasks. On some benchmarks, it achieves
comparable or even better performance compared to state-of-the-art Video LLMs
that are fine-tuned on video datasets.Summary
AI-Generated Summary