Geração de Linguagem Natural Binária e Ternária
Binary and Ternary Natural Language Generation
June 2, 2023
Autores: Zechun Liu, Barlas Oguz, Aasish Pappu, Yangyang Shi, Raghuraman Krishnamoorthi
cs.AI
Resumo
Redes neurais ternárias e binárias permitem computação sem multiplicação e prometem ganhos de eficiência de várias ordens de magnitude em relação a redes de precisão completa, se implementadas em hardware especializado. No entanto, como tanto o espaço de parâmetros quanto o de saída são altamente discretizados, tais redes têm se mostrado muito difíceis de otimizar. As dificuldades são agravadas para a classe de modelos de geração de texto baseados em transformers, devido à sensibilidade da operação de atenção à quantização e aos efeitos de acumulação de ruído na decodificação autoregressiva no espaço de saída de alta cardinalidade. Abordamos o problema com uma combinação de quantização baseada em estatísticas para os pesos e quantização elástica das ativações, e demonstramos os primeiros modelos transformers ternários e binários nas tarefas de sumarização e tradução automática. Nosso modelo BART base ternário alcança um score R1 de 41 no benchmark CNN/DailyMail, ficando apenas 3,9 pontos atrás do modelo completo, enquanto é 16x mais eficiente. Nosso modelo binário, embora menos preciso, alcança um score altamente relevante de 35,6. Para tradução automática, alcançamos scores BLEU de 21,7 e 17,6 no benchmark WMT16 En-Ro, comparados com o score de 26,8 do modelo mBART de precisão completa. Também comparamos nossa abordagem no cenário de ativações de 8 bits, onde nossos modelos com pesos ternários e até binários podem igualar ou superar os melhores modelos de pesos de 8 bits existentes na literatura. Nosso código e modelos estão disponíveis em: https://github.com/facebookresearch/Ternary_Binary_Transformer
English
Ternary and binary neural networks enable multiplication-free computation and
promise multiple orders of magnitude efficiency gains over full-precision
networks if implemented on specialized hardware. However, since both the
parameter and the output space are highly discretized, such networks have
proven very difficult to optimize. The difficulties are compounded for the
class of transformer text generation models due to the sensitivity of the
attention operation to quantization and the noise-compounding effects of
autoregressive decoding in the high-cardinality output space. We approach the
problem with a mix of statistics-based quantization for the weights and elastic
quantization of the activations and demonstrate the first ternary and binary
transformer models on the downstream tasks of summarization and machine
translation. Our ternary BART base achieves an R1 score of 41 on the
CNN/DailyMail benchmark, which is merely 3.9 points behind the full model while
being 16x more efficient. Our binary model, while less accurate, achieves a
highly non-trivial score of 35.6. For machine translation, we achieved BLEU
scores of 21.7 and 17.6 on the WMT16 En-Ro benchmark, compared with a full
precision mBART model score of 26.8. We also compare our approach in the 8-bit
activation setting, where our ternary and even binary weight models can match
or outperform the best existing 8-bit weight models in the literature. Our code
and models are available at:
https://github.com/facebookresearch/Ternary_Binary_Transformer