Transformadores Eventuales: Aprovechando la Redundancia Temporal en Transformadores de Visión
Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers
August 25, 2023
Autores: Matthew Dutson, Yin Li, Mohit Gupta
cs.AI
Resumen
Los Transformers de Visión logran una precisión impresionante en una variedad de tareas de reconocimiento visual. Lamentablemente, su precisión frecuentemente viene acompañada de altos costos computacionales. Esto es un problema particular en el reconocimiento de video, donde los modelos a menudo se aplican repetidamente a través de fotogramas o segmentos temporales. En este trabajo, aprovechamos la redundancia temporal entre entradas posteriores para reducir el costo de los Transformers en el procesamiento de video. Describimos un método para identificar y reprocesar solo aquellos tokens que han cambiado significativamente con el tiempo. Nuestra familia propuesta de modelos, Eventful Transformers, puede convertirse a partir de Transformers existentes (a menudo sin necesidad de reentrenamiento) y ofrece control adaptativo sobre el costo computacional en tiempo de ejecución. Evaluamos nuestro método en conjuntos de datos a gran escala para detección de objetos en video (ImageNet VID) y reconocimiento de acciones (EPIC-Kitchens 100). Nuestro enfoque conduce a ahorros computacionales significativos (del orden de 2-4x) con solo reducciones menores en la precisión.
English
Vision Transformers achieve impressive accuracy across a range of visual
recognition tasks. Unfortunately, their accuracy frequently comes with high
computational costs. This is a particular issue in video recognition, where
models are often applied repeatedly across frames or temporal chunks. In this
work, we exploit temporal redundancy between subsequent inputs to reduce the
cost of Transformers for video processing. We describe a method for identifying
and re-processing only those tokens that have changed significantly over time.
Our proposed family of models, Eventful Transformers, can be converted from
existing Transformers (often without any re-training) and give adaptive control
over the compute cost at runtime. We evaluate our method on large-scale
datasets for video object detection (ImageNet VID) and action recognition
(EPIC-Kitchens 100). Our approach leads to significant computational savings
(on the order of 2-4x) with only minor reductions in accuracy.