Optimierung des ViViT-Trainings: Zeit- und Speicherreduzierung für die Aktionserkennung
Optimizing ViViT Training: Time and Memory Reduction for Action Recognition
June 7, 2023
Autoren: Shreyank N Gowda, Anurag Arnab, Jonathan Huang
cs.AI
Zusammenfassung
In diesem Artikel gehen wir auf die Herausforderungen ein, die durch den erheblichen Trainingsaufwand und den hohen Speicherbedarf von Video-Transformern entstehen, wobei wir uns insbesondere auf das ViViT-Modell (Video Vision Transformer) konzentrieren, genauer gesagt auf die Variante mit faktorisiertem Encoder, die wir als Baseline für Aufgaben der Aktionserkennung verwenden. Die faktorisierte Encoder-Variante folgt dem Ansatz der späten Fusion, der von vielen modernen State-of-the-Art-Methoden übernommen wird. Obwohl sie sich durch ein günstiges Geschwindigkeit/Genauigkeit-Verhältnis unter den verschiedenen ViViT-Varianten auszeichnet, stellen der erhebliche Trainingsaufwand und der Speicherbedarf weiterhin eine erhebliche Hürde dar. Unsere Methode zielt darauf ab, diese Hürde zu senken, und basiert auf der Idee, den räumlichen Transformer während des Trainings einzufrieren. Dies führt zu einem Modell mit geringer Genauigkeit, wenn es naiv umgesetzt wird. Wir zeigen jedoch, dass wir durch (1) eine geeignete Initialisierung des temporalen Transformers (ein Modul, das für die Verarbeitung zeitlicher Informationen verantwortlich ist) und (2) die Einführung eines kompakten Adaptermodells, das eingefrorene räumliche Repräsentationen (ein Modul, das selektiv auf Regionen des Eingabebildes fokussiert) mit dem temporalen Transformer verbindet, die Vorteile des Einfrierens des räumlichen Transformers nutzen können, ohne die Genauigkeit zu beeinträchtigen. Durch umfangreiche Experimente über 6 Benchmarks demonstrieren wir, dass unsere vorgeschlagene Trainingsstrategie die Trainingskosten (um ca. 50 %) und den Speicherbedarf erheblich reduziert, während die Leistung im Vergleich zum Baseline-Modell erhalten bleibt oder sogar leicht um bis zu 1,79 % verbessert wird. Unser Ansatz ermöglicht darüber hinaus die Nutzung größerer Bild-Transformer-Modelle als unseren räumlichen Transformer und den Zugriff auf mehr Frames bei gleichem Speicherverbrauch.
English
In this paper, we address the challenges posed by the substantial training
time and memory consumption associated with video transformers, focusing on the
ViViT (Video Vision Transformer) model, in particular the Factorised Encoder
version, as our baseline for action recognition tasks. The factorised encoder
variant follows the late-fusion approach that is adopted by many state of the
art approaches. Despite standing out for its favorable speed/accuracy tradeoffs
among the different variants of ViViT, its considerable training time and
memory requirements still pose a significant barrier to entry. Our method is
designed to lower this barrier and is based on the idea of freezing the spatial
transformer during training. This leads to a low accuracy model if naively
done. But we show that by (1) appropriately initializing the temporal
transformer (a module responsible for processing temporal information) (2)
introducing a compact adapter model connecting frozen spatial representations
((a module that selectively focuses on regions of the input image) to the
temporal transformer, we can enjoy the benefits of freezing the spatial
transformer without sacrificing accuracy. Through extensive experimentation
over 6 benchmarks, we demonstrate that our proposed training strategy
significantly reduces training costs (by sim 50%) and memory consumption
while maintaining or slightly improving performance by up to 1.79\% compared to
the baseline model. Our approach additionally unlocks the capability to utilize
larger image transformer models as our spatial transformer and access more
frames with the same memory consumption.