トレーニングの柔軟性を高める:展開効率の良いビデオモデルに向けて
Make Your Training Flexible: Towards Deployment-Efficient Video Models
March 18, 2025
著者: Chenting Wang, Kunchang Li, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang
cs.AI
要旨
一般的な動画学習手法は、事前に決められた時空間グリッドからサンプリングされた固定数のトークンを主に扱っており、動画の冗長性により最適とは言えない精度と計算量のトレードオフが生じています。また、下流タスクにおける計算リソースの変動への適応性に欠けており、現実世界のシーンで最も競争力のあるモデルを適用することを妨げています。そこで我々は、予算内で最大限の入力情報を得るための新しいテスト設定「Token Optimization」を提案します。これは、より適切にサンプリングされた動画からトークンを選択することで、サイズ制限のある入力トークンのセットを最適化するものです。この目的のために、我々は「Flux」という新しい拡張ツールを提案します。サンプリンググリッドを柔軟にし、トークン選択を活用することで、ほとんどの一般的な動画学習フレームワークに容易に適用でき、追加コストをほとんどかけずにモデルの堅牢性を向上させます。我々は大規模な動画事前学習にFluxを統合し、その結果として得られたFluxViTは、標準的なコストで広範なタスクにおいて新たな最先端の結果を確立しました。特に、トークン数を1/4に削減しても、Token Optimizationを用いることで以前の最先端モデルの性能に匹敵し、約90%の節約を実現しています。すべてのモデルとデータはhttps://github.com/OpenGVLab/FluxViTで公開されています。
English
Popular video training methods mainly operate on a fixed number of tokens
sampled from a predetermined spatiotemporal grid, resulting in sub-optimal
accuracy-computation trade-offs due to inherent video redundancy. They also
lack adaptability to varying computational budgets for downstream tasks,
hindering applications of the most competitive model in real-world scenes. We
thus propose a new test setting, Token Optimization, for maximized input
information across budgets, which optimizes the size-limited set of input
tokens through token selection from more suitably sampled videos. To this end,
we propose a novel augmentation tool termed Flux. By making the sampling grid
flexible and leveraging token selection, it is easily adopted in most popular
video training frameworks, boosting model robustness with nearly no additional
cost. We integrate Flux in large-scale video pre-training, and the resulting
FluxViT establishes new state-of-the-art results across extensive tasks at
standard costs. Notably, with 1/4 tokens only, it can still match the
performance of previous state-of-the-art models with Token Optimization,
yielding nearly 90\% savings. All models and data are available at
https://github.com/OpenGVLab/FluxViT.Summary
AI-Generated Summary