ChatPaper.aiChatPaper

Eventful Transformers: Nutzung zeitlicher Redundanz in Vision Transformern

Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers

August 25, 2023
Autoren: Matthew Dutson, Yin Li, Mohit Gupta
cs.AI

Zusammenfassung

Vision Transformers erzielen beeindruckende Genauigkeit bei einer Vielzahl von visuellen Erkennungsaufgaben. Leider geht ihre Genauigkeit häufig mit hohen Rechenkosten einher. Dies stellt insbesondere ein Problem bei der Videoerkennung dar, wo Modelle oft wiederholt auf einzelne Frames oder zeitliche Abschnitte angewendet werden. In dieser Arbeit nutzen wir die zeitliche Redundanz zwischen aufeinanderfolgenden Eingaben, um die Kosten von Transformern für die Videoverarbeitung zu reduzieren. Wir beschreiben eine Methode zur Identifizierung und erneuten Verarbeitung nur derjenigen Tokens, die sich im Laufe der Zeit signifikant verändert haben. Unsere vorgeschlagene Modellfamilie, die Eventful Transformers, kann aus bestehenden Transformern umgewandelt werden (oft ohne erneutes Training) und bietet eine adaptive Kontrolle über die Rechenkosten zur Laufzeit. Wir evaluieren unsere Methode auf groß angelegten Datensätzen für die Videoobjekterkennung (ImageNet VID) und die Handlungserkennung (EPIC-Kitchens 100). Unser Ansatz führt zu erheblichen Einsparungen bei den Rechenkosten (in der Größenordnung von 2-4x) bei nur geringfügigen Genauigkeitseinbußen.
English
Vision Transformers achieve impressive accuracy across a range of visual recognition tasks. Unfortunately, their accuracy frequently comes with high computational costs. This is a particular issue in video recognition, where models are often applied repeatedly across frames or temporal chunks. In this work, we exploit temporal redundancy between subsequent inputs to reduce the cost of Transformers for video processing. We describe a method for identifying and re-processing only those tokens that have changed significantly over time. Our proposed family of models, Eventful Transformers, can be converted from existing Transformers (often without any re-training) and give adaptive control over the compute cost at runtime. We evaluate our method on large-scale datasets for video object detection (ImageNet VID) and action recognition (EPIC-Kitchens 100). Our approach leads to significant computational savings (on the order of 2-4x) with only minor reductions in accuracy.
PDF102December 15, 2024