Optimización del entrenamiento de ViViT: Reducción de tiempo y memoria para el reconocimiento de acciones
Optimizing ViViT Training: Time and Memory Reduction for Action Recognition
June 7, 2023
Autores: Shreyank N Gowda, Anurag Arnab, Jonathan Huang
cs.AI
Resumen
En este artículo, abordamos los desafíos planteados por el tiempo de entrenamiento sustancial y el consumo de memoria asociados con los transformadores de video, centrándonos en el modelo ViViT (Video Vision Transformer), en particular la versión de Codificador Factorizado, como nuestra línea base para tareas de reconocimiento de acciones. La variante del codificador factorizado sigue el enfoque de fusión tardía que adoptan muchos de los métodos más avanzados. A pesar de destacarse por sus favorables compensaciones entre velocidad y precisión entre las diferentes variantes de ViViT, su considerable tiempo de entrenamiento y requisitos de memoria siguen representando una barrera significativa. Nuestro método está diseñado para reducir esta barrera y se basa en la idea de congelar el transformador espacial durante el entrenamiento. Esto conduce a un modelo de baja precisión si se hace de manera ingenua. Sin embargo, demostramos que (1) inicializando adecuadamente el transformador temporal (un módulo responsable de procesar la información temporal) y (2) introduciendo un modelo adaptador compacto que conecta las representaciones espaciales congeladas (un módulo que se enfoca selectivamente en regiones de la imagen de entrada) con el transformador temporal, podemos disfrutar de los beneficios de congelar el transformador espacial sin sacrificar la precisión. A través de una extensa experimentación en 6 puntos de referencia, demostramos que nuestra estrategia de entrenamiento propuesta reduce significativamente los costos de entrenamiento (en aproximadamente un 50%) y el consumo de memoria, al mismo tiempo que mantiene o mejora ligeramente el rendimiento hasta en un 1,79% en comparación con el modelo base. Nuestro enfoque además desbloquea la capacidad de utilizar modelos de transformadores de imagen más grandes como nuestro transformador espacial y acceder a más fotogramas con el mismo consumo de memoria.
English
In this paper, we address the challenges posed by the substantial training
time and memory consumption associated with video transformers, focusing on the
ViViT (Video Vision Transformer) model, in particular the Factorised Encoder
version, as our baseline for action recognition tasks. The factorised encoder
variant follows the late-fusion approach that is adopted by many state of the
art approaches. Despite standing out for its favorable speed/accuracy tradeoffs
among the different variants of ViViT, its considerable training time and
memory requirements still pose a significant barrier to entry. Our method is
designed to lower this barrier and is based on the idea of freezing the spatial
transformer during training. This leads to a low accuracy model if naively
done. But we show that by (1) appropriately initializing the temporal
transformer (a module responsible for processing temporal information) (2)
introducing a compact adapter model connecting frozen spatial representations
((a module that selectively focuses on regions of the input image) to the
temporal transformer, we can enjoy the benefits of freezing the spatial
transformer without sacrificing accuracy. Through extensive experimentation
over 6 benchmarks, we demonstrate that our proposed training strategy
significantly reduces training costs (by sim 50%) and memory consumption
while maintaining or slightly improving performance by up to 1.79\% compared to
the baseline model. Our approach additionally unlocks the capability to utilize
larger image transformer models as our spatial transformer and access more
frames with the same memory consumption.