ChatPaper.aiChatPaper

SlowFast-LLaVA : Une base solide sans entraînement pour les modèles de langage de grande taille appliqués à la vidéo

SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models

July 22, 2024
Auteurs: Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
cs.AI

Résumé

Nous proposons SlowFast-LLaVA (ou SF-LLaVA en abrégé), un modèle de langage de grande taille (LLM) vidéo sans apprentissage supplémentaire, capable de capturer conjointement la sémantique spatiale détaillée et le contexte temporel à long terme sans dépasser le budget de tokens des LLM couramment utilisés. Cela est réalisé en utilisant une conception à deux flux SlowFast des entrées pour les LLM vidéo afin d'agréger les caractéristiques des images vidéo échantillonnées de manière efficace. Plus précisément, le chemin Slow extrait les caractéristiques à un faible taux de trames tout en conservant autant de détails spatiaux que possible (par exemple, avec 24x24 tokens), tandis que le chemin Fast opère à un taux de trames élevé mais utilise un pas de pooling spatial plus grand (par exemple, sous-échantillonnage 6x) pour se concentrer sur les indices de mouvement. En conséquence, cette conception nous permet de capturer adéquatement à la fois les caractéristiques spatiales et temporelles qui sont bénéfiques pour comprendre les détails tout au long de la vidéo. Les résultats expérimentaux montrent que SF-LLaVA surpasse les méthodes existantes sans apprentissage sur une large gamme de tâches vidéo. Sur certains benchmarks, il atteint des performances comparables, voire meilleures, par rapport aux LLM vidéo de pointe qui sont affinés sur des ensembles de données vidéo.
English
We propose SlowFast-LLaVA (or SF-LLaVA for short), a training-free video large language model (LLM) that can jointly capture the detailed spatial semantics and long-range temporal context without exceeding the token budget of commonly used LLMs. This is realized by using a two-stream SlowFast design of inputs for Video LLMs to aggregate features from sampled video frames in an effective way. Specifically, the Slow pathway extracts features at a low frame rate while keeping as many spatial details as possible (e.g., with 24x24 tokens), and the Fast pathway operates on a high frame rate but uses a larger spatial pooling stride (e.g., downsampling 6x) to focus on the motion cues. As a result, this design allows us to adequately capture both spatial and temporal features that are beneficial for understanding details along the video. Experimental results show that SF-LLaVA outperforms existing training-free methods on a wide range of video tasks. On some benchmarks, it achieves comparable or even better performance compared to state-of-the-art Video LLMs that are fine-tuned on video datasets.

Summary

AI-Generated Summary

PDF415November 28, 2024