Rendi il tuo Addestramento Flessibile: Verso Modelli Video Efficienti per il Deployment
Make Your Training Flexible: Towards Deployment-Efficient Video Models
March 18, 2025
Autori: Chenting Wang, Kunchang Li, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang
cs.AI
Abstract
I metodi di addestramento video più diffusi operano principalmente su un numero fisso di token campionati da una griglia spazio-temporale predeterminata, risultando in compromessi precisione-calcolo subottimali a causa della ridondanza intrinseca dei video. Inoltre, mancano di adattabilità a budget computazionali variabili per task downstream, ostacolando l'applicazione del modello più competitivo in scenari reali. Proponiamo quindi una nuova configurazione di test, denominata Ottimizzazione dei Token, per massimizzare le informazioni in ingresso in base al budget, che ottimizza l'insieme limitato di token di input attraverso la selezione di token da video campionati in modo più appropriato. A tal fine, introduciamo un nuovo strumento di aumento chiamato Flux. Rendendo flessibile la griglia di campionamento e sfruttando la selezione dei token, può essere facilmente integrato nella maggior parte dei framework di addestramento video più diffusi, migliorando la robustezza del modello con un costo aggiuntivo quasi nullo. Integriamo Flux nel pre-addestramento video su larga scala, e il risultante FluxViT stabilisce nuovi risultati state-of-the-art su un'ampia gamma di task a costi standard. In particolare, con solo 1/4 dei token, può ancora eguagliare le prestazioni dei precedenti modelli state-of-the-art con Ottimizzazione dei Token, ottenendo un risparmio di quasi il 90%. Tutti i modelli e i dati sono disponibili all'indirizzo https://github.com/OpenGVLab/FluxViT.
English
Popular video training methods mainly operate on a fixed number of tokens
sampled from a predetermined spatiotemporal grid, resulting in sub-optimal
accuracy-computation trade-offs due to inherent video redundancy. They also
lack adaptability to varying computational budgets for downstream tasks,
hindering applications of the most competitive model in real-world scenes. We
thus propose a new test setting, Token Optimization, for maximized input
information across budgets, which optimizes the size-limited set of input
tokens through token selection from more suitably sampled videos. To this end,
we propose a novel augmentation tool termed Flux. By making the sampling grid
flexible and leveraging token selection, it is easily adopted in most popular
video training frameworks, boosting model robustness with nearly no additional
cost. We integrate Flux in large-scale video pre-training, and the resulting
FluxViT establishes new state-of-the-art results across extensive tasks at
standard costs. Notably, with 1/4 tokens only, it can still match the
performance of previous state-of-the-art models with Token Optimization,
yielding nearly 90\% savings. All models and data are available at
https://github.com/OpenGVLab/FluxViT.