Eventful Transformers: Использование временной избыточности в Vision Transformers
Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers
August 25, 2023
Авторы: Matthew Dutson, Yin Li, Mohit Gupta
cs.AI
Аннотация
Трансформеры для обработки изображений демонстрируют впечатляющую точность в широком спектре задач визуального распознавания. К сожалению, их высокая точность часто сопровождается значительными вычислительными затратами. Это особенно актуально для задач распознавания видео, где модели обычно применяются многократно к отдельным кадрам или временным отрезкам. В данной работе мы используем временную избыточность между последовательными входными данными для снижения вычислительной стоимости трансформеров при обработке видео. Мы описываем метод, который позволяет выявлять и повторно обрабатывать только те токены, которые существенно изменились с течением времени. Предлагаемое семейство моделей, Eventful Transformers, может быть адаптировано из существующих трансформеров (часто без необходимости повторного обучения) и обеспечивает адаптивный контроль над вычислительными затратами во время выполнения. Мы оцениваем наш метод на крупномасштабных наборах данных для обнаружения объектов в видео (ImageNet VID) и распознавания действий (EPIC-Kitchens 100). Наш подход позволяет достичь значительной экономии вычислительных ресурсов (в 2-4 раза) при незначительном снижении точности.
English
Vision Transformers achieve impressive accuracy across a range of visual
recognition tasks. Unfortunately, their accuracy frequently comes with high
computational costs. This is a particular issue in video recognition, where
models are often applied repeatedly across frames or temporal chunks. In this
work, we exploit temporal redundancy between subsequent inputs to reduce the
cost of Transformers for video processing. We describe a method for identifying
and re-processing only those tokens that have changed significantly over time.
Our proposed family of models, Eventful Transformers, can be converted from
existing Transformers (often without any re-training) and give adaptive control
over the compute cost at runtime. We evaluate our method on large-scale
datasets for video object detection (ImageNet VID) and action recognition
(EPIC-Kitchens 100). Our approach leads to significant computational savings
(on the order of 2-4x) with only minor reductions in accuracy.