ChatPaper.aiChatPaper

Haz que tu entrenamiento sea flexible: hacia modelos de video eficientes en despliegue

Make Your Training Flexible: Towards Deployment-Efficient Video Models

March 18, 2025
Autores: Chenting Wang, Kunchang Li, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang
cs.AI

Resumen

Los métodos populares de entrenamiento de video operan principalmente sobre un número fijo de tokens muestreados de una cuadrícula espacio-temporal predeterminada, lo que resulta en compensaciones subóptimas entre precisión y computación debido a la redundancia inherente del video. Además, carecen de adaptabilidad a diferentes presupuestos computacionales para tareas posteriores, lo que dificulta la aplicación del modelo más competitivo en escenarios del mundo real. Por ello, proponemos un nuevo entorno de prueba, denominado Optimización de Tokens, para maximizar la información de entrada en función de los presupuestos, el cual optimiza el conjunto limitado de tokens de entrada mediante la selección de tokens a partir de videos muestreados de manera más adecuada. Para ello, presentamos una nueva herramienta de aumento llamada Flux. Al hacer que la cuadrícula de muestreo sea flexible y aprovechar la selección de tokens, Flux se integra fácilmente en la mayoría de los marcos de entrenamiento de video populares, mejorando la robustez del modelo con un costo adicional casi nulo. Integramos Flux en el pre-entrenamiento de video a gran escala, y el modelo resultante, FluxViT, establece nuevos resultados de vanguardia en una amplia gama de tareas con costos estándar. Notablemente, con solo 1/4 de los tokens, FluxViT puede igualar el rendimiento de los modelos anteriores de vanguardia con Optimización de Tokens, logrando un ahorro de casi el 90%. Todos los modelos y datos están disponibles en https://github.com/OpenGVLab/FluxViT.
English
Popular video training methods mainly operate on a fixed number of tokens sampled from a predetermined spatiotemporal grid, resulting in sub-optimal accuracy-computation trade-offs due to inherent video redundancy. They also lack adaptability to varying computational budgets for downstream tasks, hindering applications of the most competitive model in real-world scenes. We thus propose a new test setting, Token Optimization, for maximized input information across budgets, which optimizes the size-limited set of input tokens through token selection from more suitably sampled videos. To this end, we propose a novel augmentation tool termed Flux. By making the sampling grid flexible and leveraging token selection, it is easily adopted in most popular video training frameworks, boosting model robustness with nearly no additional cost. We integrate Flux in large-scale video pre-training, and the resulting FluxViT establishes new state-of-the-art results across extensive tasks at standard costs. Notably, with 1/4 tokens only, it can still match the performance of previous state-of-the-art models with Token Optimization, yielding nearly 90\% savings. All models and data are available at https://github.com/OpenGVLab/FluxViT.

Summary

AI-Generated Summary

PDF52March 21, 2025