Skalierung von TransNormer auf 175 Milliarden Parameter
Scaling TransNormer to 175 Billion Parameters
July 27, 2023
Autoren: Zhen Qin, Dong Li, Weigao Sun, Weixuan Sun, Xuyang Shen, Xiaodong Han, Yunshen Wei, Baohong Lv, Fei Yuan, Xiao Luo, Yu Qiao, Yiran Zhong
cs.AI
Zusammenfassung
Wir präsentieren TransNormerLLM, das erste Large Language Model (LLM) mit linearer Aufmerksamkeit, das herkömmliche Modelle mit Softmax-Aufmerksamkeit sowohl in Bezug auf Genauigkeit als auch Effizienz übertrifft. TransNormerLLM entwickelt sich aus der bisherigen linearen Aufmerksamkeitsarchitektur TransNormer durch fortgeschrittene Modifikationen, die Positionsembedding, Beschleunigung der linearen Aufmerksamkeit, Gating-Mechanismus, Tensor-Normalisierung, Inferenzbeschleunigung und -stabilisierung umfassen. Insbesondere verwenden wir LRPE zusammen mit einem exponentiellen Abfall, um Probleme der Aufmerksamkeitsverdünnung zu vermeiden, während das Modell gleichzeitig globale Interaktionen zwischen Tokens beibehalten kann. Zusätzlich schlagen wir Lightning Attention vor, eine bahnbrechende Technik, die die lineare Aufmerksamkeit in der Laufzeit um mehr als das Doppelte beschleunigt und den Speicherverbrauch bemerkenswert um das Vierfache reduziert. Um die Leistung von TransNormer weiter zu steigern, nutzen wir einen Gating-Mechanismus, um das Training zu glätten, und ein neues Tensor-Normalisierungsschema, um das Modell zu beschleunigen, was zu einer beeindruckenden Beschleunigung von über 20% führt. Darüber hinaus haben wir einen robusten Inferenzalgorithmus entwickelt, der numerische Stabilität und eine konsistente Inferenzgeschwindigkeit unabhängig von der Sequenzlänge gewährleistet und damit eine überlegene Effizienz sowohl während des Trainings als auch der Inferenz zeigt. Skalierbarkeit steht im Mittelpunkt unseres Modellentwurfs, was eine nahtlose Bereitstellung auf großen Clustern ermöglicht und die Erweiterung auf noch umfangreichere Modelle erleichtert, während gleichzeitig herausragende Leistungsmetriken beibehalten werden. Die strenge Validierung unseres Modellentwurfs wird durch eine Reihe umfassender Experimente auf unserem selbst gesammelten Korpus erreicht, der eine Größe von über 6 TB und mehr als 2 Billionen Tokens umfasst. Um die Datenqualität und Relevanz sicherzustellen, implementieren wir eine neue Selbstreinigungsstrategie, um unsere gesammelten Daten zu filtern. Unsere vortrainierten Modelle werden veröffentlicht, um die Gemeinschaft bei der Weiterentwicklung effizienter LLMs zu unterstützen.
English
We present TransNormerLLM, the first linear attention-based Large Language
Model (LLM) that outperforms conventional softmax attention-based models in
terms of both accuracy and efficiency. TransNormerLLM evolves from the previous
linear attention architecture TransNormer by making advanced modifications that
include positional embedding, linear attention acceleration, gating mechanism,
tensor normalization, inference acceleration and stabilization. Specifically,
we use LRPE together with an exponential decay to avoid attention dilution
issues while allowing the model to retain global interactions between tokens.
Additionally, we propose Lightning Attention, a cutting-edge technique that
accelerates linear attention by more than twice in runtime and reduces memory
usage by a remarkable four times. To further enhance the performance of
TransNormer, we leverage a gating mechanism to smooth training and a new tensor
normalization scheme to accelerate the model, resulting in an impressive
acceleration of over 20%. Furthermore, we have developed a robust inference
algorithm that ensures numerical stability and consistent inference speed,
regardless of the sequence length, showcasing superior efficiency during both
training and inference stages. Scalability is at the heart of our model's
design, enabling seamless deployment on large-scale clusters and facilitating
expansion to even more extensive models, all while maintaining outstanding
performance metrics. Rigorous validation of our model design is achieved
through a series of comprehensive experiments on our self-collected corpus,
boasting a size exceeding 6TB and containing over 2 trillion tokens. To ensure
data quality and relevance, we implement a new self-cleaning strategy to filter
our collected data. Our pre-trained models will be released to foster community
advancements in efficient LLMs.