Rendez votre entraînement flexible : Vers des modèles vidéo efficaces en déploiement
Make Your Training Flexible: Towards Deployment-Efficient Video Models
March 18, 2025
Auteurs: Chenting Wang, Kunchang Li, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang
cs.AI
Résumé
Les méthodes populaires d'entraînement vidéo opèrent principalement sur un nombre fixe de tokens échantillonnés à partir d'une grille spatiotemporelle prédéfinie, ce qui entraîne des compromis précision-calcul sous-optimaux en raison de la redondance inhérente des vidéos. Elles manquent également d'adaptabilité aux budgets de calcul variables pour les tâches en aval, limitant ainsi l'application des modèles les plus compétitifs dans des scénarios réels. Nous proposons donc un nouveau cadre de test, l'Optimisation de Tokens, pour maximiser l'information d'entrée selon les budgets disponibles, en optimisant l'ensemble limité de tokens d'entrée via une sélection de tokens à partir de vidéos échantillonnées de manière plus appropriée. À cette fin, nous proposons un nouvel outil d'augmentation appelé Flux. En rendant la grille d'échantillonnage flexible et en exploitant la sélection de tokens, il s'intègre facilement dans la plupart des frameworks d'entraînement vidéo populaires, améliorant la robustesse du modèle avec un coût supplémentaire quasi nul. Nous intégrons Flux dans un pré-entraînement vidéo à grande échelle, et le modèle résultant, FluxViT, établit de nouveaux records de pointe sur une multitude de tâches à des coûts standards. Notamment, avec seulement 1/4 des tokens, il peut égaler les performances des modèles précédents de pointe avec l'Optimisation de Tokens, permettant des économies de près de 90 %. Tous les modèles et données sont disponibles à l'adresse https://github.com/OpenGVLab/FluxViT.
English
Popular video training methods mainly operate on a fixed number of tokens
sampled from a predetermined spatiotemporal grid, resulting in sub-optimal
accuracy-computation trade-offs due to inherent video redundancy. They also
lack adaptability to varying computational budgets for downstream tasks,
hindering applications of the most competitive model in real-world scenes. We
thus propose a new test setting, Token Optimization, for maximized input
information across budgets, which optimizes the size-limited set of input
tokens through token selection from more suitably sampled videos. To this end,
we propose a novel augmentation tool termed Flux. By making the sampling grid
flexible and leveraging token selection, it is easily adopted in most popular
video training frameworks, boosting model robustness with nearly no additional
cost. We integrate Flux in large-scale video pre-training, and the resulting
FluxViT establishes new state-of-the-art results across extensive tasks at
standard costs. Notably, with 1/4 tokens only, it can still match the
performance of previous state-of-the-art models with Token Optimization,
yielding nearly 90\% savings. All models and data are available at
https://github.com/OpenGVLab/FluxViT.Summary
AI-Generated Summary