Maak uw training flexibel: naar implementatie-efficiënte videomodellen
Make Your Training Flexible: Towards Deployment-Efficient Video Models
March 18, 2025
Auteurs: Chenting Wang, Kunchang Li, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang
cs.AI
Samenvatting
Populaire methoden voor videotraining werken voornamelijk met een vast aantal tokens die worden bemonsterd vanuit een vooraf bepaalde spatiotemporele grid, wat resulteert in suboptimale nauwkeurigheid-rekentijd-afwegingen vanwege inherente videoredundantie. Ze missen ook aanpassingsvermogen aan variërende rekenbudgetten voor downstream taken, wat de toepassing van het meest competitieve model in real-world scenario's belemmert. Daarom stellen we een nieuwe testopzet voor, Token Optimalisatie, om de invoerinformatie over verschillende budgetten te maximaliseren, waarbij de groottebeperkte set invoertokens wordt geoptimaliseerd door tokenselectie uit geschikter bemonsterde video's. Hiertoe introduceren we een nieuw augmentatietool genaamd Flux. Door de bemonsteringsgrid flexibel te maken en tokenselectie te benutten, kan het eenvoudig worden geïntegreerd in de meeste populaire videotrainingsframeworks, wat de robuustheid van het model verhoogt tegen bijna geen extra kosten. We integreren Flux in grootschalige videovoorbereiding, en het resulterende FluxViT vestigt nieuwe state-of-the-art resultaten over uitgebreide taken tegen standaardkosten. Opmerkelijk is dat het met slechts 1/4 van de tokens nog steeds de prestaties van eerdere state-of-the-art modellen met Token Optimalisatie kan evenaren, wat bijna 90\% besparing oplevert. Alle modellen en data zijn beschikbaar op https://github.com/OpenGVLab/FluxViT.
English
Popular video training methods mainly operate on a fixed number of tokens
sampled from a predetermined spatiotemporal grid, resulting in sub-optimal
accuracy-computation trade-offs due to inherent video redundancy. They also
lack adaptability to varying computational budgets for downstream tasks,
hindering applications of the most competitive model in real-world scenes. We
thus propose a new test setting, Token Optimization, for maximized input
information across budgets, which optimizes the size-limited set of input
tokens through token selection from more suitably sampled videos. To this end,
we propose a novel augmentation tool termed Flux. By making the sampling grid
flexible and leveraging token selection, it is easily adopted in most popular
video training frameworks, boosting model robustness with nearly no additional
cost. We integrate Flux in large-scale video pre-training, and the resulting
FluxViT establishes new state-of-the-art results across extensive tasks at
standard costs. Notably, with 1/4 tokens only, it can still match the
performance of previous state-of-the-art models with Token Optimization,
yielding nearly 90\% savings. All models and data are available at
https://github.com/OpenGVLab/FluxViT.Summary
AI-Generated Summary