Бинарная и тернарная генерация естественного языка
Binary and Ternary Natural Language Generation
June 2, 2023
Авторы: Zechun Liu, Barlas Oguz, Aasish Pappu, Yangyang Shi, Raghuraman Krishnamoorthi
cs.AI
Аннотация
Троичные и бинарные нейронные сети позволяют выполнять вычисления без умножений и обещают многократное повышение эффективности по сравнению с сетями с полной точностью, если они реализованы на специализированном оборудовании. Однако, поскольку как пространство параметров, так и пространство выходных данных сильно дискретизированы, такие сети оказались крайне сложными для оптимизации. Эти трудности усугубляются для класса моделей генерации текста на основе трансформеров из-за чувствительности операции внимания к квантованию и эффектов накопления шума при авторегрессивном декодировании в пространстве выходных данных с высокой кардинальностью. Мы подходим к проблеме с использованием статистически обоснованного квантования для весов и эластичного квантования активаций и демонстрируем первые троичные и бинарные модели трансформеров для задач суммаризации и машинного перевода. Наша троичная модель BART base достигает оценки R1 41 на бенчмарке CNN/DailyMail, что всего на 3.9 балла отстает от полной модели, при этом она в 16 раз более эффективна. Наша бинарная модель, хотя и менее точная, достигает значимой оценки 35.6. Для машинного перевода мы получили оценки BLEU 21.7 и 17.6 на бенчмарке WMT16 En-Ro, по сравнению с оценкой 26.8 для модели mBART с полной точностью. Мы также сравниваем наш подход в условиях 8-битных активаций, где наши модели с троичными и даже бинарными весами могут соответствовать или превосходить лучшие существующие модели с 8-битными весами в литературе. Наш код и модели доступны по адресу:
https://github.com/facebookresearch/Ternary_Binary_Transformer
English
Ternary and binary neural networks enable multiplication-free computation and
promise multiple orders of magnitude efficiency gains over full-precision
networks if implemented on specialized hardware. However, since both the
parameter and the output space are highly discretized, such networks have
proven very difficult to optimize. The difficulties are compounded for the
class of transformer text generation models due to the sensitivity of the
attention operation to quantization and the noise-compounding effects of
autoregressive decoding in the high-cardinality output space. We approach the
problem with a mix of statistics-based quantization for the weights and elastic
quantization of the activations and demonstrate the first ternary and binary
transformer models on the downstream tasks of summarization and machine
translation. Our ternary BART base achieves an R1 score of 41 on the
CNN/DailyMail benchmark, which is merely 3.9 points behind the full model while
being 16x more efficient. Our binary model, while less accurate, achieves a
highly non-trivial score of 35.6. For machine translation, we achieved BLEU
scores of 21.7 and 17.6 on the WMT16 En-Ro benchmark, compared with a full
precision mBART model score of 26.8. We also compare our approach in the 8-bit
activation setting, where our ternary and even binary weight models can match
or outperform the best existing 8-bit weight models in the literature. Our code
and models are available at:
https://github.com/facebookresearch/Ternary_Binary_Transformer