Масштабирование TransNormer до 175 миллиардов параметров
Scaling TransNormer to 175 Billion Parameters
July 27, 2023
Авторы: Zhen Qin, Dong Li, Weigao Sun, Weixuan Sun, Xuyang Shen, Xiaodong Han, Yunshen Wei, Baohong Lv, Fei Yuan, Xiao Luo, Yu Qiao, Yiran Zhong
cs.AI
Аннотация
Мы представляем TransNormerLLM — первую крупную языковую модель (LLM), основанную на линейном внимании, которая превосходит традиционные модели с softmax-вниманием как по точности, так и по эффективности. TransNormerLLM развивает предыдущую архитектуру линейного внимания TransNormer, внося в неё усовершенствования, включая позиционные эмбеддинги, ускорение линейного внимания, механизм гейтирования, тензорную нормализацию, ускорение и стабилизацию вывода. В частности, мы используем LRPE вместе с экспоненциальным затуханием, чтобы избежать проблем с размытием внимания, сохраняя при этом глобальные взаимодействия между токенами. Кроме того, мы предлагаем Lightning Attention — передовую технику, которая ускоряет линейное внимание более чем в два раза в режиме реального времени и сокращает использование памяти в четыре раза. Для дальнейшего повышения производительности TransNormer мы применяем механизм гейтирования для сглаживания обучения и новую схему тензорной нормализации, что приводит к впечатляющему ускорению более чем на 20%. Кроме того, мы разработали устойчивый алгоритм вывода, который обеспечивает численную стабильность и постоянную скорость вывода независимо от длины последовательности, демонстрируя превосходную эффективность как на этапе обучения, так и на этапе вывода. Масштабируемость лежит в основе дизайна нашей модели, позволяя беспрепятственно развертывать её на крупных кластерах и облегчая расширение до ещё более масштабных моделей, сохраняя при этом выдающиеся показатели производительности. Тщательная проверка дизайна нашей модели проведена через серию всесторонних экспериментов на нашем собственном корпусе данных, объём которого превышает 6 ТБ и содержит более 2 триллионов токенов. Для обеспечения качества и релевантности данных мы применяем новую стратегию самоочистки для фильтрации собранных данных. Наши предобученные модели будут опубликованы для содействия развитию сообщества в области эффективных LLM.
English
We present TransNormerLLM, the first linear attention-based Large Language
Model (LLM) that outperforms conventional softmax attention-based models in
terms of both accuracy and efficiency. TransNormerLLM evolves from the previous
linear attention architecture TransNormer by making advanced modifications that
include positional embedding, linear attention acceleration, gating mechanism,
tensor normalization, inference acceleration and stabilization. Specifically,
we use LRPE together with an exponential decay to avoid attention dilution
issues while allowing the model to retain global interactions between tokens.
Additionally, we propose Lightning Attention, a cutting-edge technique that
accelerates linear attention by more than twice in runtime and reduces memory
usage by a remarkable four times. To further enhance the performance of
TransNormer, we leverage a gating mechanism to smooth training and a new tensor
normalization scheme to accelerate the model, resulting in an impressive
acceleration of over 20%. Furthermore, we have developed a robust inference
algorithm that ensures numerical stability and consistent inference speed,
regardless of the sequence length, showcasing superior efficiency during both
training and inference stages. Scalability is at the heart of our model's
design, enabling seamless deployment on large-scale clusters and facilitating
expansion to even more extensive models, all while maintaining outstanding
performance metrics. Rigorous validation of our model design is achieved
through a series of comprehensive experiments on our self-collected corpus,
boasting a size exceeding 6TB and containing over 2 trillion tokens. To ensure
data quality and relevance, we implement a new self-cleaning strategy to filter
our collected data. Our pre-trained models will be released to foster community
advancements in efficient LLMs.