Eventful Transformers: Benutten van Temporele Redundantie in Vision Transformers
Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers
August 25, 2023
Auteurs: Matthew Dutson, Yin Li, Mohit Gupta
cs.AI
Samenvatting
Vision Transformers behalen indrukwekkende nauwkeurigheid bij een reeks visuele herkenningstaken. Helaas gaat hun nauwkeurigheid vaak gepaard met hoge rekenkosten. Dit is met name een probleem bij videorecognitie, waar modellen vaak herhaaldelijk worden toegepast op frames of temporele segmenten. In dit werk benutten we temporele redundantie tussen opeenvolgende invoeren om de kosten van Transformers voor videoverwerking te verminderen. We beschrijven een methode om alleen die tokens te identificeren en opnieuw te verwerken die in de loop van de tijd significant zijn veranderd. Onze voorgestelde familie van modellen, Eventful Transformers, kan worden omgezet vanuit bestaande Transformers (vaak zonder enige hertraining) en biedt adaptieve controle over de rekenkosten tijdens runtime. We evalueren onze methode op grootschalige datasets voor videodetectie van objecten (ImageNet VID) en actieherkenning (EPIC-Kitchens 100). Onze aanpak leidt tot aanzienlijke rekenkundige besparingen (in de orde van 2-4x) met slechts minimale verminderingen in nauwkeurigheid.
English
Vision Transformers achieve impressive accuracy across a range of visual
recognition tasks. Unfortunately, their accuracy frequently comes with high
computational costs. This is a particular issue in video recognition, where
models are often applied repeatedly across frames or temporal chunks. In this
work, we exploit temporal redundancy between subsequent inputs to reduce the
cost of Transformers for video processing. We describe a method for identifying
and re-processing only those tokens that have changed significantly over time.
Our proposed family of models, Eventful Transformers, can be converted from
existing Transformers (often without any re-training) and give adaptive control
over the compute cost at runtime. We evaluate our method on large-scale
datasets for video object detection (ImageNet VID) and action recognition
(EPIC-Kitchens 100). Our approach leads to significant computational savings
(on the order of 2-4x) with only minor reductions in accuracy.