ChatPaper.aiChatPaper

Обучение обрезки токенов шума

Training Noise Token Pruning

November 27, 2024
Авторы: Mingxing Rao, Bohan Jiang, Daniel Moyer
cs.AI

Аннотация

В данной работе мы представляем метод обучения с усечением токенов шума (TNT) для видео-трансформеров. Наш метод расслабляет условие дискретного отбрасывания токенов до непрерывного добавочного шума, обеспечивая плавную оптимизацию во время обучения, сохраняя при этом дискретные вычислительные преимущества отбрасывания в развертывающихся средах. Мы предоставляем теоретические связи с литературой по скорости искажения и эмпирические оценки на наборе данных ImageNet с использованием архитектур ViT и DeiT, демонстрируя преимущества TNT по сравнению с предыдущими методами усечения.
English
In the present work we present Training Noise Token (TNT) Pruning for vision transformers. Our method relaxes the discrete token dropping condition to continuous additive noise, providing smooth optimization in training, while retaining discrete dropping computational gains in deployment settings. We provide theoretical connections to Rate-Distortion literature, and empirical evaluations on the ImageNet dataset using ViT and DeiT architectures demonstrating TNT's advantages over previous pruning methods.

Summary

AI-Generated Summary

PDF12December 2, 2024