Entrenamiento de Podado de Tokens de Ruido
Training Noise Token Pruning
November 27, 2024
Autores: Mingxing Rao, Bohan Jiang, Daniel Moyer
cs.AI
Resumen
En el presente trabajo presentamos el Entrenamiento con Ruido en Tokens (TNT) para la poda de transformers de visión. Nuestro método relaja la condición de eliminación de tokens discretos a ruido aditivo continuo, lo que proporciona una optimización suave en el entrenamiento, al tiempo que conserva las ventajas computacionales de eliminación discreta en entornos de implementación. Establecemos conexiones teóricas con la literatura de Tasa-Distorsión y realizamos evaluaciones empíricas en el conjunto de datos ImageNet utilizando las arquitecturas ViT y DeiT, demostrando las ventajas de TNT sobre métodos de poda previos.
English
In the present work we present Training Noise Token (TNT) Pruning for vision
transformers. Our method relaxes the discrete token dropping condition to
continuous additive noise, providing smooth optimization in training, while
retaining discrete dropping computational gains in deployment settings. We
provide theoretical connections to Rate-Distortion literature, and empirical
evaluations on the ImageNet dataset using ViT and DeiT architectures
demonstrating TNT's advantages over previous pruning methods.