Сделайте ваше обучение гибким: в сторону эффективных для развертывания видеомоделей
Make Your Training Flexible: Towards Deployment-Efficient Video Models
March 18, 2025
Авторы: Chenting Wang, Kunchang Li, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang
cs.AI
Аннотация
Популярные методы обучения на видеоданных в основном работают с фиксированным количеством токенов, выбранных из заранее заданной пространственно-временной сетки, что приводит к неоптимальному балансу между точностью и вычислительными затратами из-за присущей видео избыточности. Кроме того, они не обладают адаптивностью к различным вычислительным бюджетам для последующих задач, что затрудняет применение наиболее конкурентоспособных моделей в реальных сценариях. В связи с этим мы предлагаем новый подход к тестированию, называемый Оптимизация Токенов, который максимизирует входную информацию в рамках заданного бюджета, оптимизируя ограниченный по размеру набор входных токенов за счет их выбора из более подходящим образом сэмплированных видео. Для этого мы предлагаем новый инструмент аугментации под названием Flux. Благодаря гибкости в выборе сэмплирующей сетки и использованию отбора токенов, он легко интегрируется в большинство популярных фреймворков для обучения на видео, повышая устойчивость модели практически без дополнительных затрат. Мы интегрировали Flux в крупномасштабное предварительное обучение на видео, и полученная модель FluxViT устанавливает новые рекорды в широком спектре задач при стандартных затратах. Примечательно, что используя всего 1/4 токенов, она может соответствовать производительности предыдущих моделей с Оптимизацией Токенов, обеспечивая экономию почти в 90%. Все модели и данные доступны по адресу https://github.com/OpenGVLab/FluxViT.
English
Popular video training methods mainly operate on a fixed number of tokens
sampled from a predetermined spatiotemporal grid, resulting in sub-optimal
accuracy-computation trade-offs due to inherent video redundancy. They also
lack adaptability to varying computational budgets for downstream tasks,
hindering applications of the most competitive model in real-world scenes. We
thus propose a new test setting, Token Optimization, for maximized input
information across budgets, which optimizes the size-limited set of input
tokens through token selection from more suitably sampled videos. To this end,
we propose a novel augmentation tool termed Flux. By making the sampling grid
flexible and leveraging token selection, it is easily adopted in most popular
video training frameworks, boosting model robustness with nearly no additional
cost. We integrate Flux in large-scale video pre-training, and the resulting
FluxViT establishes new state-of-the-art results across extensive tasks at
standard costs. Notably, with 1/4 tokens only, it can still match the
performance of previous state-of-the-art models with Token Optimization,
yielding nearly 90\% savings. All models and data are available at
https://github.com/OpenGVLab/FluxViT.Summary
AI-Generated Summary