Otimização do Treinamento do ViViT: Redução de Tempo e Memória para Reconhecimento de Ações
Optimizing ViViT Training: Time and Memory Reduction for Action Recognition
June 7, 2023
Autores: Shreyank N Gowda, Anurag Arnab, Jonathan Huang
cs.AI
Resumo
Neste artigo, abordamos os desafios impostos pelo tempo substancial de treinamento e consumo de memória associados aos transformadores de vídeo, com foco no modelo ViViT (Video Vision Transformer), especificamente na versão do Encoder Fatorizado, que utilizamos como linha de base para tarefas de reconhecimento de ações. A variante do encoder fatorizado segue a abordagem de fusão tardia, adotada por muitos dos métodos state of the art. Apesar de se destacar por seu equilíbrio favorável entre velocidade e precisão entre as diferentes variantes do ViViT, seu tempo considerável de treinamento e requisitos de memória ainda representam uma barreira significativa. Nosso método foi projetado para reduzir essa barreira e se baseia na ideia de congelar o transformador espacial durante o treinamento. Isso resultaria em um modelo de baixa precisão se feito de forma ingênua. No entanto, mostramos que, (1) inicializando adequadamente o transformador temporal (um módulo responsável por processar informações temporais) e (2) introduzindo um modelo adaptador compacto que conecta as representações espaciais congeladas (um módulo que se concentra seletivamente em regiões da imagem de entrada) ao transformador temporal, podemos aproveitar os benefícios de congelar o transformador espacial sem sacrificar a precisão. Por meio de experimentação extensa em 6 benchmarks, demonstramos que nossa estratégia de treinamento proposta reduz significativamente os custos de treinamento (em aproximadamente 50%) e o consumo de memória, mantendo ou melhorando ligeiramente o desempenho em até 1,79% em comparação com o modelo de linha de base. Nossa abordagem também desbloqueia a capacidade de utilizar modelos maiores de transformadores de imagem como nosso transformador espacial e acessar mais quadros com o mesmo consumo de memória.
English
In this paper, we address the challenges posed by the substantial training
time and memory consumption associated with video transformers, focusing on the
ViViT (Video Vision Transformer) model, in particular the Factorised Encoder
version, as our baseline for action recognition tasks. The factorised encoder
variant follows the late-fusion approach that is adopted by many state of the
art approaches. Despite standing out for its favorable speed/accuracy tradeoffs
among the different variants of ViViT, its considerable training time and
memory requirements still pose a significant barrier to entry. Our method is
designed to lower this barrier and is based on the idea of freezing the spatial
transformer during training. This leads to a low accuracy model if naively
done. But we show that by (1) appropriately initializing the temporal
transformer (a module responsible for processing temporal information) (2)
introducing a compact adapter model connecting frozen spatial representations
((a module that selectively focuses on regions of the input image) to the
temporal transformer, we can enjoy the benefits of freezing the spatial
transformer without sacrificing accuracy. Through extensive experimentation
over 6 benchmarks, we demonstrate that our proposed training strategy
significantly reduces training costs (by sim 50%) and memory consumption
while maintaining or slightly improving performance by up to 1.79\% compared to
the baseline model. Our approach additionally unlocks the capability to utilize
larger image transformer models as our spatial transformer and access more
frames with the same memory consumption.