Otimização do Treinamento do ViViT: Redução de Tempo e Memória para Reconhecimento de Ações

Resumo

Neste artigo, abordamos os desafios impostos pelo tempo substancial de treinamento e consumo de memória associados aos transformadores de vídeo, com foco no modelo ViViT (Video Vision Transformer), especificamente na versão do Encoder Fatorizado, que utilizamos como linha de base para tarefas de reconhecimento de ações. A variante do encoder fatorizado segue a abordagem de fusão tardia, adotada por muitos dos métodos state of the art. Apesar de se destacar por seu equilíbrio favorável entre velocidade e precisão entre as diferentes variantes do ViViT, seu tempo considerável de treinamento e requisitos de memória ainda representam uma barreira significativa. Nosso método foi projetado para reduzir essa barreira e se baseia na ideia de congelar o transformador espacial durante o treinamento. Isso resultaria em um modelo de baixa precisão se feito de forma ingênua. No entanto, mostramos que, (1) inicializando adequadamente o transformador temporal (um módulo responsável por processar informações temporais) e (2) introduzindo um modelo adaptador compacto que conecta as representações espaciais congeladas (um módulo que se concentra seletivamente em regiões da imagem de entrada) ao transformador temporal, podemos aproveitar os benefícios de congelar o transformador espacial sem sacrificar a precisão. Por meio de experimentação extensa em 6 benchmarks, demonstramos que nossa estratégia de treinamento proposta reduz significativamente os custos de treinamento (em aproximadamente 50%) e o consumo de memória, mantendo ou melhorando ligeiramente o desempenho em até 1,79% em comparação com o modelo de linha de base. Nossa abordagem também desbloqueia a capacidade de utilizar modelos maiores de transformadores de imagem como nosso transformador espacial e acessar mais quadros com o mesmo consumo de memória.

English

In this paper, we address the challenges posed by the substantial training time and memory consumption associated with video transformers, focusing on the ViViT (Video Vision Transformer) model, in particular the Factorised Encoder version, as our baseline for action recognition tasks. The factorised encoder variant follows the late-fusion approach that is adopted by many state of the art approaches. Despite standing out for its favorable speed/accuracy tradeoffs among the different variants of ViViT, its considerable training time and memory requirements still pose a significant barrier to entry. Our method is designed to lower this barrier and is based on the idea of freezing the spatial transformer during training. This leads to a low accuracy model if naively done. But we show that by (1) appropriately initializing the temporal transformer (a module responsible for processing temporal information) (2) introducing a compact adapter model connecting frozen spatial representations ((a module that selectively focuses on regions of the input image) to the temporal transformer, we can enjoy the benefits of freezing the spatial transformer without sacrificing accuracy. Through extensive experimentation over 6 benchmarks, we demonstrate that our proposed training strategy significantly reduces training costs (by sim 50%) and memory consumption while maintaining or slightly improving performance by up to 1.79\% compared to the baseline model. Our approach additionally unlocks the capability to utilize larger image transformer models as our spatial transformer and access more frames with the same memory consumption.

Otimização do Treinamento do ViViT: Redução de Tempo e Memória para Reconhecimento de Ações

Optimizing ViViT Training: Time and Memory Reduction for Action Recognition

Resumo

Support