Transformers Eventuali: Sfruttare la Ridondanza Temporale nei Vision Transformer
Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers
August 25, 2023
Autori: Matthew Dutson, Yin Li, Mohit Gupta
cs.AI
Abstract
I Vision Transformer raggiungono un'accuratezza impressionante in una vasta gamma di attività di riconoscimento visivo. Purtroppo, la loro accuratezza è spesso accompagnata da elevati costi computazionali. Questo rappresenta un problema particolare nel riconoscimento video, dove i modelli vengono spesso applicati ripetutamente su fotogrammi o segmenti temporali. In questo lavoro, sfruttiamo la ridondanza temporale tra input successivi per ridurre il costo dei Transformer nell'elaborazione video. Descriviamo un metodo per identificare e rielaborare solo quei token che hanno subito cambiamenti significativi nel tempo. La nostra famiglia di modelli proposta, gli Eventful Transformer, può essere convertita da Transformer esistenti (spesso senza alcuna ri-addestramento) e offre un controllo adattivo sul costo computazionale durante l'esecuzione. Valutiamo il nostro metodo su dataset su larga scala per il rilevamento di oggetti video (ImageNet VID) e il riconoscimento di azioni (EPIC-Kitchens 100). Il nostro approccio porta a significativi risparmi computazionali (nell'ordine di 2-4x) con solo lievi riduzioni dell'accuratezza.
English
Vision Transformers achieve impressive accuracy across a range of visual
recognition tasks. Unfortunately, their accuracy frequently comes with high
computational costs. This is a particular issue in video recognition, where
models are often applied repeatedly across frames or temporal chunks. In this
work, we exploit temporal redundancy between subsequent inputs to reduce the
cost of Transformers for video processing. We describe a method for identifying
and re-processing only those tokens that have changed significantly over time.
Our proposed family of models, Eventful Transformers, can be converted from
existing Transformers (often without any re-training) and give adaptive control
over the compute cost at runtime. We evaluate our method on large-scale
datasets for video object detection (ImageNet VID) and action recognition
(EPIC-Kitchens 100). Our approach leads to significant computational savings
(on the order of 2-4x) with only minor reductions in accuracy.