Optimización del entrenamiento de ViViT: Reducción de tiempo y memoria para el reconocimiento de acciones

Resumen

En este artículo, abordamos los desafíos planteados por el tiempo de entrenamiento sustancial y el consumo de memoria asociados con los transformadores de video, centrándonos en el modelo ViViT (Video Vision Transformer), en particular la versión de Codificador Factorizado, como nuestra línea base para tareas de reconocimiento de acciones. La variante del codificador factorizado sigue el enfoque de fusión tardía que adoptan muchos de los métodos más avanzados. A pesar de destacarse por sus favorables compensaciones entre velocidad y precisión entre las diferentes variantes de ViViT, su considerable tiempo de entrenamiento y requisitos de memoria siguen representando una barrera significativa. Nuestro método está diseñado para reducir esta barrera y se basa en la idea de congelar el transformador espacial durante el entrenamiento. Esto conduce a un modelo de baja precisión si se hace de manera ingenua. Sin embargo, demostramos que (1) inicializando adecuadamente el transformador temporal (un módulo responsable de procesar la información temporal) y (2) introduciendo un modelo adaptador compacto que conecta las representaciones espaciales congeladas (un módulo que se enfoca selectivamente en regiones de la imagen de entrada) con el transformador temporal, podemos disfrutar de los beneficios de congelar el transformador espacial sin sacrificar la precisión. A través de una extensa experimentación en 6 puntos de referencia, demostramos que nuestra estrategia de entrenamiento propuesta reduce significativamente los costos de entrenamiento (en aproximadamente un 50%) y el consumo de memoria, al mismo tiempo que mantiene o mejora ligeramente el rendimiento hasta en un 1,79% en comparación con el modelo base. Nuestro enfoque además desbloquea la capacidad de utilizar modelos de transformadores de imagen más grandes como nuestro transformador espacial y acceder a más fotogramas con el mismo consumo de memoria.

English

In this paper, we address the challenges posed by the substantial training time and memory consumption associated with video transformers, focusing on the ViViT (Video Vision Transformer) model, in particular the Factorised Encoder version, as our baseline for action recognition tasks. The factorised encoder variant follows the late-fusion approach that is adopted by many state of the art approaches. Despite standing out for its favorable speed/accuracy tradeoffs among the different variants of ViViT, its considerable training time and memory requirements still pose a significant barrier to entry. Our method is designed to lower this barrier and is based on the idea of freezing the spatial transformer during training. This leads to a low accuracy model if naively done. But we show that by (1) appropriately initializing the temporal transformer (a module responsible for processing temporal information) (2) introducing a compact adapter model connecting frozen spatial representations ((a module that selectively focuses on regions of the input image) to the temporal transformer, we can enjoy the benefits of freezing the spatial transformer without sacrificing accuracy. Through extensive experimentation over 6 benchmarks, we demonstrate that our proposed training strategy significantly reduces training costs (by sim 50%) and memory consumption while maintaining or slightly improving performance by up to 1.79\% compared to the baseline model. Our approach additionally unlocks the capability to utilize larger image transformer models as our spatial transformer and access more frames with the same memory consumption.

Optimización del entrenamiento de ViViT: Reducción de tiempo y memoria para el reconocimiento de acciones

Optimizing ViViT Training: Time and Memory Reduction for Action Recognition

Resumen

Support