ChatPaper.aiChatPaper

Generación de Lenguaje Natural Binario y Ternario

Binary and Ternary Natural Language Generation

June 2, 2023
Autores: Zechun Liu, Barlas Oguz, Aasish Pappu, Yangyang Shi, Raghuraman Krishnamoorthi
cs.AI

Resumen

Las redes neuronales ternarias y binarias permiten cálculos sin multiplicaciones y prometen ganancias de eficiencia de varios órdenes de magnitud en comparación con las redes de precisión completa si se implementan en hardware especializado. Sin embargo, dado que tanto el espacio de parámetros como el de salida están altamente discretizados, estas redes han demostrado ser muy difíciles de optimizar. Las dificultades se agravan en el caso de los modelos de generación de texto basados en transformadores debido a la sensibilidad de la operación de atención a la cuantización y a los efectos de acumulación de ruido en la decodificación autoregresiva dentro del espacio de salida de alta cardinalidad. Abordamos el problema con una combinación de cuantización basada en estadísticas para los pesos y cuantización elástica de las activaciones, y demostramos los primeros modelos de transformadores ternarios y binarios en las tareas de resumen y traducción automática. Nuestro modelo ternario BART base alcanza una puntuación R1 de 41 en el benchmark CNN/DailyMail, lo que está apenas 3.9 puntos por detrás del modelo completo mientras es 16 veces más eficiente. Nuestro modelo binario, aunque menos preciso, logra una puntuación altamente significativa de 35.6. En traducción automática, obtuvimos puntuaciones BLEU de 21.7 y 17.6 en el benchmark WMT16 En-Ro, en comparación con la puntuación de 26.8 del modelo mBART de precisión completa. También comparamos nuestro enfoque en el escenario de activaciones de 8 bits, donde nuestros modelos con pesos ternarios e incluso binarios pueden igualar o superar a los mejores modelos existentes con pesos de 8 bits en la literatura. Nuestro código y modelos están disponibles en: https://github.com/facebookresearch/Ternary_Binary_Transformer.
English
Ternary and binary neural networks enable multiplication-free computation and promise multiple orders of magnitude efficiency gains over full-precision networks if implemented on specialized hardware. However, since both the parameter and the output space are highly discretized, such networks have proven very difficult to optimize. The difficulties are compounded for the class of transformer text generation models due to the sensitivity of the attention operation to quantization and the noise-compounding effects of autoregressive decoding in the high-cardinality output space. We approach the problem with a mix of statistics-based quantization for the weights and elastic quantization of the activations and demonstrate the first ternary and binary transformer models on the downstream tasks of summarization and machine translation. Our ternary BART base achieves an R1 score of 41 on the CNN/DailyMail benchmark, which is merely 3.9 points behind the full model while being 16x more efficient. Our binary model, while less accurate, achieves a highly non-trivial score of 35.6. For machine translation, we achieved BLEU scores of 21.7 and 17.6 on the WMT16 En-Ro benchmark, compared with a full precision mBART model score of 26.8. We also compare our approach in the 8-bit activation setting, where our ternary and even binary weight models can match or outperform the best existing 8-bit weight models in the literature. Our code and models are available at: https://github.com/facebookresearch/Ternary_Binary_Transformer
PDF30December 15, 2024