ChatPaper.aiChatPaper

Transformers Événementiels : Exploiter la Redondance Temporelle dans les Transformers pour la Vision

Eventful Transformers: Leveraging Temporal Redundancy in Vision Transformers

August 25, 2023
Auteurs: Matthew Dutson, Yin Li, Mohit Gupta
cs.AI

Résumé

Les Vision Transformers atteignent une précision impressionnante sur une variété de tâches de reconnaissance visuelle. Malheureusement, cette précision s'accompagne souvent de coûts computationnels élevés. Ceci pose un problème particulier dans la reconnaissance vidéo, où les modèles sont souvent appliqués de manière répétée sur des images ou des segments temporels. Dans ce travail, nous exploitons la redondance temporelle entre les entrées successives pour réduire le coût des Transformers dans le traitement vidéo. Nous décrivons une méthode pour identifier et retraiter uniquement les tokens qui ont subi des changements significatifs au fil du temps. Notre famille de modèles proposée, les Eventful Transformers, peut être convertie à partir de Transformers existants (souvent sans aucun réentraînement) et offre un contrôle adaptatif sur le coût computationnel en temps réel. Nous évaluons notre méthode sur des ensembles de données à grande échelle pour la détection d'objets vidéo (ImageNet VID) et la reconnaissance d'actions (EPIC-Kitchens 100). Notre approche permet des économies computationnelles significatives (de l'ordre de 2 à 4 fois) avec seulement des réductions mineures de la précision.
English
Vision Transformers achieve impressive accuracy across a range of visual recognition tasks. Unfortunately, their accuracy frequently comes with high computational costs. This is a particular issue in video recognition, where models are often applied repeatedly across frames or temporal chunks. In this work, we exploit temporal redundancy between subsequent inputs to reduce the cost of Transformers for video processing. We describe a method for identifying and re-processing only those tokens that have changed significantly over time. Our proposed family of models, Eventful Transformers, can be converted from existing Transformers (often without any re-training) and give adaptive control over the compute cost at runtime. We evaluate our method on large-scale datasets for video object detection (ImageNet VID) and action recognition (EPIC-Kitchens 100). Our approach leads to significant computational savings (on the order of 2-4x) with only minor reductions in accuracy.
PDF102December 15, 2024