Rendez votre entraînement flexible : Vers des modèles vidéo efficaces en déploiement

papers.abstract

Les méthodes populaires d'entraînement vidéo opèrent principalement sur un nombre fixe de tokens échantillonnés à partir d'une grille spatiotemporelle prédéfinie, ce qui entraîne des compromis précision-calcul sous-optimaux en raison de la redondance inhérente des vidéos. Elles manquent également d'adaptabilité aux budgets de calcul variables pour les tâches en aval, limitant ainsi l'application des modèles les plus compétitifs dans des scénarios réels. Nous proposons donc un nouveau cadre de test, l'Optimisation de Tokens, pour maximiser l'information d'entrée selon les budgets disponibles, en optimisant l'ensemble limité de tokens d'entrée via une sélection de tokens à partir de vidéos échantillonnées de manière plus appropriée. À cette fin, nous proposons un nouvel outil d'augmentation appelé Flux. En rendant la grille d'échantillonnage flexible et en exploitant la sélection de tokens, il s'intègre facilement dans la plupart des frameworks d'entraînement vidéo populaires, améliorant la robustesse du modèle avec un coût supplémentaire quasi nul. Nous intégrons Flux dans un pré-entraînement vidéo à grande échelle, et le modèle résultant, FluxViT, établit de nouveaux records de pointe sur une multitude de tâches à des coûts standards. Notamment, avec seulement 1/4 des tokens, il peut égaler les performances des modèles précédents de pointe avec l'Optimisation de Tokens, permettant des économies de près de 90 %. Tous les modèles et données sont disponibles à l'adresse https://github.com/OpenGVLab/FluxViT.

English

Popular video training methods mainly operate on a fixed number of tokens sampled from a predetermined spatiotemporal grid, resulting in sub-optimal accuracy-computation trade-offs due to inherent video redundancy. They also lack adaptability to varying computational budgets for downstream tasks, hindering applications of the most competitive model in real-world scenes. We thus propose a new test setting, Token Optimization, for maximized input information across budgets, which optimizes the size-limited set of input tokens through token selection from more suitably sampled videos. To this end, we propose a novel augmentation tool termed Flux. By making the sampling grid flexible and leveraging token selection, it is easily adopted in most popular video training frameworks, boosting model robustness with nearly no additional cost. We integrate Flux in large-scale video pre-training, and the resulting FluxViT establishes new state-of-the-art results across extensive tasks at standard costs. Notably, with 1/4 tokens only, it can still match the performance of previous state-of-the-art models with Token Optimization, yielding nearly 90\% savings. All models and data are available at https://github.com/OpenGVLab/FluxViT.

Rendez votre entraînement flexible : Vers des modèles vidéo efficaces en déploiement

Make Your Training Flexible: Towards Deployment-Efficient Video Models

papers.abstract

Support