Entraînement de l'élagage des jetons de bruit
Training Noise Token Pruning
November 27, 2024
Auteurs: Mingxing Rao, Bohan Jiang, Daniel Moyer
cs.AI
Résumé
Dans le présent travail, nous présentons l'élagage Training Noise Token (TNT) pour les transformers vision. Notre méthode assouplit la condition de suppression de jeton discrète en un bruit additif continu, offrant une optimisation en douceur lors de l'entraînement, tout en conservant les avantages computationnels de la suppression discrète lors du déploiement. Nous établissons des liens théoriques avec la littérature sur le taux de distorsion, et réalisons des évaluations empiriques sur l'ensemble de données ImageNet en utilisant les architectures ViT et DeiT pour démontrer les avantages de TNT par rapport aux méthodes d'élagage précédentes.
English
In the present work we present Training Noise Token (TNT) Pruning for vision
transformers. Our method relaxes the discrete token dropping condition to
continuous additive noise, providing smooth optimization in training, while
retaining discrete dropping computational gains in deployment settings. We
provide theoretical connections to Rate-Distortion literature, and empirical
evaluations on the ImageNet dataset using ViT and DeiT architectures
demonstrating TNT's advantages over previous pruning methods.Summary
AI-Generated Summary