Transformadores Eventuais: Aproveitando a Redundância Temporal em Transformadores de Visão
Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers
August 25, 2023
Autores: Matthew Dutson, Yin Li, Mohit Gupta
cs.AI
Resumo
Os Vision Transformers alcançam precisão impressionante em uma variedade de tarefas de reconhecimento visual. Infelizmente, sua precisão frequentemente vem acompanhada de altos custos computacionais. Isso é um problema particular no reconhecimento de vídeos, onde os modelos são frequentemente aplicados repetidamente em quadros ou segmentos temporais. Neste trabalho, exploramos a redundância temporal entre entradas subsequentes para reduzir o custo dos Transformers no processamento de vídeos. Descrevemos um método para identificar e reprocessar apenas os tokens que mudaram significativamente ao longo do tempo. Nossa família proposta de modelos, os Eventful Transformers, pode ser convertida a partir de Transformers existentes (muitas vezes sem qualquer retreinamento) e oferece controle adaptativo sobre o custo computacional em tempo de execução. Avaliamos nosso método em conjuntos de dados em larga escala para detecção de objetos em vídeos (ImageNet VID) e reconhecimento de ações (EPIC-Kitchens 100). Nossa abordagem resulta em economias computacionais significativas (da ordem de 2-4x) com apenas pequenas reduções na precisão.
English
Vision Transformers achieve impressive accuracy across a range of visual
recognition tasks. Unfortunately, their accuracy frequently comes with high
computational costs. This is a particular issue in video recognition, where
models are often applied repeatedly across frames or temporal chunks. In this
work, we exploit temporal redundancy between subsequent inputs to reduce the
cost of Transformers for video processing. We describe a method for identifying
and re-processing only those tokens that have changed significantly over time.
Our proposed family of models, Eventful Transformers, can be converted from
existing Transformers (often without any re-training) and give adaptive control
over the compute cost at runtime. We evaluate our method on large-scale
datasets for video object detection (ImageNet VID) and action recognition
(EPIC-Kitchens 100). Our approach leads to significant computational savings
(on the order of 2-4x) with only minor reductions in accuracy.