ChatPaper.aiChatPaper

Training von Rausch-Token-Pruning

Training Noise Token Pruning

November 27, 2024
Autoren: Mingxing Rao, Bohan Jiang, Daniel Moyer
cs.AI

Zusammenfassung

In der vorliegenden Arbeit stellen wir das Training Noise Token (TNT) Pruning für Vision-Transformer vor. Unsere Methode entspannt die Bedingung des diskreten Token-Droppings zu kontinuierlichem additiven Rauschen, was eine reibungslose Optimierung im Training ermöglicht, während die diskreten Dropping-Rechenleistungsvorteile in Bereitstellungsszenarien beibehalten werden. Wir stellen theoretische Verbindungen zur Rate-Distortion-Literatur her und führen empirische Bewertungen anhand des ImageNet-Datensatzes unter Verwendung der ViT- und DeiT-Architekturen durch, um die Vorteile von TNT gegenüber früheren Pruning-Methoden zu demonstrieren.
English
In the present work we present Training Noise Token (TNT) Pruning for vision transformers. Our method relaxes the discrete token dropping condition to continuous additive noise, providing smooth optimization in training, while retaining discrete dropping computational gains in deployment settings. We provide theoretical connections to Rate-Distortion literature, and empirical evaluations on the ImageNet dataset using ViT and DeiT architectures demonstrating TNT's advantages over previous pruning methods.

Summary

AI-Generated Summary

PDF12December 2, 2024