ChatPaper.aiChatPaper

Génération de langage naturel binaire et ternaire

Binary and Ternary Natural Language Generation

June 2, 2023
Auteurs: Zechun Liu, Barlas Oguz, Aasish Pappu, Yangyang Shi, Raghuraman Krishnamoorthi
cs.AI

Résumé

Les réseaux de neurones ternaires et binaires permettent un calcul sans multiplication et promettent des gains d'efficacité de plusieurs ordres de grandeur par rapport aux réseaux en pleine précision s'ils sont implémentés sur du matériel spécialisé. Cependant, étant donné que les espaces des paramètres et des sorties sont fortement discrétisés, l'optimisation de tels réseaux s'est avérée très difficile. Ces difficultés sont amplifiées pour la classe des modèles de génération de texte basés sur les transformateurs, en raison de la sensibilité de l'opération d'attention à la quantification et des effets cumulatifs du bruit lors du décodage auto-régressif dans l'espace de sortie à cardinalité élevée. Nous abordons ce problème avec une combinaison de quantification basée sur les statistiques pour les poids et de quantification élastique des activations, et démontrons les premiers modèles de transformateurs ternaires et binaires sur les tâches de résumé et de traduction automatique. Notre modèle BART ternaire de base atteint un score R1 de 41 sur le benchmark CNN/DailyMail, ce qui est seulement 3,9 points en dessous du modèle en pleine précision tout en étant 16 fois plus efficace. Notre modèle binaire, bien que moins précis, atteint un score non négligeable de 35,6. Pour la traduction automatique, nous avons obtenu des scores BLEU de 21,7 et 17,6 sur le benchmark WMT16 En-Ro, contre un score de 26,8 pour le modèle mBART en pleine précision. Nous comparons également notre approche dans le cadre des activations 8 bits, où nos modèles ternaires et même binaires peuvent égaler ou surpasser les meilleurs modèles 8 bits existants dans la littérature. Notre code et nos modèles sont disponibles à l'adresse suivante : https://github.com/facebookresearch/Ternary_Binary_Transformer
English
Ternary and binary neural networks enable multiplication-free computation and promise multiple orders of magnitude efficiency gains over full-precision networks if implemented on specialized hardware. However, since both the parameter and the output space are highly discretized, such networks have proven very difficult to optimize. The difficulties are compounded for the class of transformer text generation models due to the sensitivity of the attention operation to quantization and the noise-compounding effects of autoregressive decoding in the high-cardinality output space. We approach the problem with a mix of statistics-based quantization for the weights and elastic quantization of the activations and demonstrate the first ternary and binary transformer models on the downstream tasks of summarization and machine translation. Our ternary BART base achieves an R1 score of 41 on the CNN/DailyMail benchmark, which is merely 3.9 points behind the full model while being 16x more efficient. Our binary model, while less accurate, achieves a highly non-trivial score of 35.6. For machine translation, we achieved BLEU scores of 21.7 and 17.6 on the WMT16 En-Ro benchmark, compared with a full precision mBART model score of 26.8. We also compare our approach in the 8-bit activation setting, where our ternary and even binary weight models can match or outperform the best existing 8-bit weight models in the literature. Our code and models are available at: https://github.com/facebookresearch/Ternary_Binary_Transformer
PDF30December 15, 2024