Treinamento de Podas de Tokens de Ruído
Training Noise Token Pruning
November 27, 2024
Autores: Mingxing Rao, Bohan Jiang, Daniel Moyer
cs.AI
Resumo
No presente trabalho, apresentamos o Treinamento com Ruído nos Tokens (TNT) para poda em transformers de visão. Nosso método relaxa a condição de eliminação discreta de tokens para ruído aditivo contínuo, proporcionando uma otimização suave no treinamento, ao mesmo tempo em que mantém os ganhos computacionais da eliminação discreta em ambientes de implantação. Estabelecemos conexões teóricas com a literatura de Taxa-Distorção e realizamos avaliações empíricas no conjunto de dados ImageNet usando as arquiteturas ViT e DeiT, demonstrando as vantagens do TNT sobre métodos de poda anteriores.
English
In the present work we present Training Noise Token (TNT) Pruning for vision
transformers. Our method relaxes the discrete token dropping condition to
continuous additive noise, providing smooth optimization in training, while
retaining discrete dropping computational gains in deployment settings. We
provide theoretical connections to Rate-Distortion literature, and empirical
evaluations on the ImageNet dataset using ViT and DeiT architectures
demonstrating TNT's advantages over previous pruning methods.