Optimalisatie van ViViT-training: Tijd- en geheugenreductie voor actieherkenning

Samenvatting

In dit artikel gaan we in op de uitdagingen die worden veroorzaakt door de aanzienlijke trainingsduur en het geheugengebruik die gepaard gaan met videotransformers, waarbij we ons richten op het ViViT-model (Video Vision Transformer), met name de Factorised Encoder-versie, als ons uitgangspunt voor actieherkenningstaken. De factorised encoder-variant volgt de late-fusiebenadering die door veel state-of-the-art methoden wordt gebruikt. Ondanks dat deze variant opvalt door zijn gunstige snelheid/nauwkeurigheid-afwegingen ten opzichte van de verschillende ViViT-varianten, vormen de aanzienlijke trainingsduur en het geheugengebruik nog steeds een belangrijke drempel. Onze methode is ontworpen om deze drempel te verlagen en is gebaseerd op het idee om de ruimtelijke transformer tijdens de training te bevriezen. Dit leidt tot een model met lage nauwkeurigheid als dit op een naïeve manier wordt gedaan. Maar we laten zien dat door (1) de temporele transformer (een module die verantwoordelijk is voor het verwerken van temporele informatie) op de juiste manier te initialiseren, en (2) een compact adaptermodel te introduceren dat bevroren ruimtelijke representaties (een module die selectief focust op regio's van de invoerafbeelding) verbindt met de temporele transformer, we de voordelen van het bevriezen van de ruimtelijke transformer kunnen benutten zonder in te leveren op nauwkeurigheid. Door uitgebreide experimenten op 6 benchmarks tonen we aan dat onze voorgestelde trainingsstrategie de trainingskosten aanzienlijk vermindert (met ongeveer 50%) en het geheugengebruik verlaagt, terwijl de prestaties behouden blijven of licht verbeteren met maximaal 1,79% ten opzichte van het basismodel. Onze aanpak maakt het bovendien mogelijk om grotere beeldtransformermodellen te gebruiken als onze ruimtelijke transformer en meer frames te verwerken met hetzelfde geheugengebruik.

English

In this paper, we address the challenges posed by the substantial training time and memory consumption associated with video transformers, focusing on the ViViT (Video Vision Transformer) model, in particular the Factorised Encoder version, as our baseline for action recognition tasks. The factorised encoder variant follows the late-fusion approach that is adopted by many state of the art approaches. Despite standing out for its favorable speed/accuracy tradeoffs among the different variants of ViViT, its considerable training time and memory requirements still pose a significant barrier to entry. Our method is designed to lower this barrier and is based on the idea of freezing the spatial transformer during training. This leads to a low accuracy model if naively done. But we show that by (1) appropriately initializing the temporal transformer (a module responsible for processing temporal information) (2) introducing a compact adapter model connecting frozen spatial representations ((a module that selectively focuses on regions of the input image) to the temporal transformer, we can enjoy the benefits of freezing the spatial transformer without sacrificing accuracy. Through extensive experimentation over 6 benchmarks, we demonstrate that our proposed training strategy significantly reduces training costs (by sim 50%) and memory consumption while maintaining or slightly improving performance by up to 1.79\% compared to the baseline model. Our approach additionally unlocks the capability to utilize larger image transformer models as our spatial transformer and access more frames with the same memory consumption.

Optimalisatie van ViViT-training: Tijd- en geheugenreductie voor actieherkenning

Optimizing ViViT Training: Time and Memory Reduction for Action Recognition

Samenvatting

Support