Torne Seu Treinamento Flexível: Rumo a Modelos de Vídeo Eficientes em Implantação
Make Your Training Flexible: Towards Deployment-Efficient Video Models
March 18, 2025
Autores: Chenting Wang, Kunchang Li, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang
cs.AI
Resumo
Os métodos populares de treinamento de vídeo operam principalmente em um número fixo de tokens amostrados a partir de uma grade espaço-temporal predeterminada, resultando em trade-offs de precisão-computação subótimos devido à redundância inerente dos vídeos. Eles também carecem de adaptabilidade a orçamentos computacionais variáveis para tarefas subsequentes, dificultando a aplicação do modelo mais competitivo em cenários do mundo real. Assim, propomos um novo cenário de teste, chamado Otimização de Tokens, para maximizar a informação de entrada em diferentes orçamentos, o que otimiza o conjunto limitado de tokens de entrada por meio da seleção de tokens a partir de vídeos amostrados de forma mais adequada. Para isso, propomos uma nova ferramenta de aumento chamada Flux. Ao tornar a grade de amostragem flexível e aproveitar a seleção de tokens, ela é facilmente adotada na maioria dos frameworks populares de treinamento de vídeo, aumentando a robustez do modelo com quase nenhum custo adicional. Integramos o Flux no pré-treinamento de vídeo em larga escala, e o resultado, o FluxViT, estabelece novos resultados state-of-the-art em uma ampla gama de tarefas a custos padrão. Notavelmente, com apenas 1/4 dos tokens, ele ainda pode igualar o desempenho dos modelos state-of-the-art anteriores com Otimização de Tokens, gerando uma economia de quase 90%. Todos os modelos e dados estão disponíveis em https://github.com/OpenGVLab/FluxViT.
English
Popular video training methods mainly operate on a fixed number of tokens
sampled from a predetermined spatiotemporal grid, resulting in sub-optimal
accuracy-computation trade-offs due to inherent video redundancy. They also
lack adaptability to varying computational budgets for downstream tasks,
hindering applications of the most competitive model in real-world scenes. We
thus propose a new test setting, Token Optimization, for maximized input
information across budgets, which optimizes the size-limited set of input
tokens through token selection from more suitably sampled videos. To this end,
we propose a novel augmentation tool termed Flux. By making the sampling grid
flexible and leveraging token selection, it is easily adopted in most popular
video training frameworks, boosting model robustness with nearly no additional
cost. We integrate Flux in large-scale video pre-training, and the resulting
FluxViT establishes new state-of-the-art results across extensive tasks at
standard costs. Notably, with 1/4 tokens only, it can still match the
performance of previous state-of-the-art models with Token Optimization,
yielding nearly 90\% savings. All models and data are available at
https://github.com/OpenGVLab/FluxViT.Summary
AI-Generated Summary