Оптимизация обучения ViViT: сокращение времени и использования памяти для распознавания действий
Optimizing ViViT Training: Time and Memory Reduction for Action Recognition
June 7, 2023
Авторы: Shreyank N Gowda, Anurag Arnab, Jonathan Huang
cs.AI
Аннотация
В данной статье мы рассматриваем проблемы, связанные с длительным временем обучения и высоким потреблением памяти в видео-трансформерах, уделяя особое внимание модели ViViT (Video Vision Transformer), а именно версии с факторизованным кодировщиком, которая используется в качестве базовой для задач распознавания действий. Факторизованный кодировщик следует подходу позднего слияния, который применяется во многих современных методах. Несмотря на выгодный компромисс между скоростью и точностью среди различных вариантов ViViT, значительное время обучения и требования к памяти остаются серьезным препятствием для использования. Наш метод направлен на снижение этого барьера и основан на идее заморозки пространственного трансформера в процессе обучения. Это приводит к снижению точности модели, если применять данный подход без дополнительных мер. Однако мы показываем, что путем (1) корректной инициализации временного трансформера (модуля, отвечающего за обработку временной информации) и (2) введения компактного адаптера, связывающего замороженные пространственные представления (модуль, который избирательно фокусируется на областях входного изображения) с временным трансформером, можно получить преимущества заморозки пространственного трансформера без потери точности. В ходе обширных экспериментов на 6 бенчмарках мы демонстрируем, что предложенная стратегия обучения значительно сокращает затраты на обучение (примерно на 50%) и потребление памяти, при этом сохраняя или даже немного улучшая производительность (до 1,79%) по сравнению с базовой моделью. Наш подход также позволяет использовать более крупные модели изображений в качестве пространственного трансформера и обрабатывать больше кадров при том же объеме памяти.
English
In this paper, we address the challenges posed by the substantial training
time and memory consumption associated with video transformers, focusing on the
ViViT (Video Vision Transformer) model, in particular the Factorised Encoder
version, as our baseline for action recognition tasks. The factorised encoder
variant follows the late-fusion approach that is adopted by many state of the
art approaches. Despite standing out for its favorable speed/accuracy tradeoffs
among the different variants of ViViT, its considerable training time and
memory requirements still pose a significant barrier to entry. Our method is
designed to lower this barrier and is based on the idea of freezing the spatial
transformer during training. This leads to a low accuracy model if naively
done. But we show that by (1) appropriately initializing the temporal
transformer (a module responsible for processing temporal information) (2)
introducing a compact adapter model connecting frozen spatial representations
((a module that selectively focuses on regions of the input image) to the
temporal transformer, we can enjoy the benefits of freezing the spatial
transformer without sacrificing accuracy. Through extensive experimentation
over 6 benchmarks, we demonstrate that our proposed training strategy
significantly reduces training costs (by sim 50%) and memory consumption
while maintaining or slightly improving performance by up to 1.79\% compared to
the baseline model. Our approach additionally unlocks the capability to utilize
larger image transformer models as our spatial transformer and access more
frames with the same memory consumption.