훈련 유연성 확보: 배포 효율적인 비디오 모델을 향하여
Make Your Training Flexible: Towards Deployment-Efficient Video Models
March 18, 2025
저자: Chenting Wang, Kunchang Li, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang
cs.AI
초록
기존의 주요 비디오 학습 방법들은 주로 미리 정의된 시공간 그리드에서 샘플링된 고정된 수의 토큰을 기반으로 작동하며, 이는 비디오 내재적 중복성으로 인해 최적이 아닌 정확도-계산량 트레이드오프를 초래합니다. 또한 이러한 방법들은 다운스트림 작업에 대한 다양한 계산 예산에 적응할 수 없어, 현실 세계에서 가장 경쟁력 있는 모델의 적용을 방해합니다. 이에 따라 우리는 예산 범위 내에서 입력 정보를 최대화하기 위한 새로운 테스트 설정인 토큰 최적화를 제안합니다. 이는 더 적절하게 샘플링된 비디오에서 토큰을 선택함으로써 크기가 제한된 입력 토큰 집합을 최적화합니다. 이를 위해 우리는 플럭스(Flux)라는 새로운 증강 도구를 제안합니다. 플럭스는 샘플링 그리드를 유연하게 만들고 토큰 선택을 활용함으로써 대부분의 인기 있는 비디오 학습 프레임워크에 쉽게 적용될 수 있으며, 거의 추가 비용 없이 모델의 견고성을 향상시킵니다. 우리는 플럭스를 대규모 비디오 사전 학습에 통합했으며, 그 결과 플럭스ViT(FluxViT)는 표준 비용으로 다양한 작업에서 새로운 최첨단 결과를 달성했습니다. 특히, 토큰 최적화를 통해 단 1/4의 토큰만으로도 이전 최첨단 모델의 성능을 유지하면서 거의 90%의 비용 절감을 이뤄냈습니다. 모든 모델과 데이터는 https://github.com/OpenGVLab/FluxViT에서 확인할 수 있습니다.
English
Popular video training methods mainly operate on a fixed number of tokens
sampled from a predetermined spatiotemporal grid, resulting in sub-optimal
accuracy-computation trade-offs due to inherent video redundancy. They also
lack adaptability to varying computational budgets for downstream tasks,
hindering applications of the most competitive model in real-world scenes. We
thus propose a new test setting, Token Optimization, for maximized input
information across budgets, which optimizes the size-limited set of input
tokens through token selection from more suitably sampled videos. To this end,
we propose a novel augmentation tool termed Flux. By making the sampling grid
flexible and leveraging token selection, it is easily adopted in most popular
video training frameworks, boosting model robustness with nearly no additional
cost. We integrate Flux in large-scale video pre-training, and the resulting
FluxViT establishes new state-of-the-art results across extensive tasks at
standard costs. Notably, with 1/4 tokens only, it can still match the
performance of previous state-of-the-art models with Token Optimization,
yielding nearly 90\% savings. All models and data are available at
https://github.com/OpenGVLab/FluxViT.Summary
AI-Generated Summary