SlowFast-LLaVA : Une base solide sans entraßnement pour les modÚles de langage de grande taille appliqués à la vidéoSlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language
Models
Nous proposons SlowFast-LLaVA (ou SF-LLaVA en abrégé), un modÚle de langage de grande taille (LLM) vidéo sans apprentissage supplémentaire, capable de capturer conjointement la sémantique spatiale détaillée et le contexte temporel à long terme sans dépasser le budget de tokens des LLM couramment utilisés. Cela est réalisé en utilisant une conception à deux flux SlowFast des entrées pour les LLM vidéo afin d'agréger les caractéristiques des images vidéo échantillonnées de maniÚre efficace. Plus précisément, le chemin Slow extrait les caractéristiques à un faible taux de trames tout en conservant autant de détails spatiaux que possible (par exemple, avec 24x24 tokens), tandis que le chemin Fast opÚre à un taux de trames élevé mais utilise un pas de pooling spatial plus grand (par exemple, sous-échantillonnage 6x) pour se concentrer sur les indices de mouvement. En conséquence, cette conception nous permet de capturer adéquatement à la fois les caractéristiques spatiales et temporelles qui sont bénéfiques pour comprendre les détails tout au long de la vidéo. Les résultats expérimentaux montrent que SF-LLaVA surpasse les méthodes existantes sans apprentissage sur une large gamme de tùches vidéo. Sur certains benchmarks, il atteint des performances comparables, voire meilleures, par rapport aux LLM vidéo de pointe qui sont affinés sur des ensembles de données vidéo.