Het opschalen van TransNormer naar 175 miljard parameters
Scaling TransNormer to 175 Billion Parameters
July 27, 2023
Auteurs: Zhen Qin, Dong Li, Weigao Sun, Weixuan Sun, Xuyang Shen, Xiaodong Han, Yunshen Wei, Baohong Lv, Fei Yuan, Xiao Luo, Yu Qiao, Yiran Zhong
cs.AI
Samenvatting
We presenteren TransNormerLLM, het eerste lineaire aandacht-gebaseerde Large Language Model (LLM) dat conventionele softmax aandacht-gebaseerde modellen overtreft op het gebied van zowel nauwkeurigheid als efficiëntie. TransNormerLLM is een evolutie van het eerdere lineaire aandacht-architectuur TransNormer, waarbij geavanceerde aanpassingen zijn doorgevoerd, waaronder positionele embedding, lineaire aandachtversnelling, een gating-mechanisme, tensor-normalisatie, inferentieversnelling en stabilisatie. Specifiek gebruiken we LRPE in combinatie met een exponentiële afname om aandachtverdunningsproblemen te voorkomen, terwijl het model globale interacties tussen tokens behoudt. Daarnaast introduceren we Lightning Attention, een baanbrekende techniek die lineaire aandacht meer dan verdubbelt in uitvoeringstijd en het geheugengebruik opmerkelijke vier keer reduceert. Om de prestaties van TransNormer verder te verbeteren, benutten we een gating-mechanisme om de training te vergemakkelijken en een nieuwe tensor-normalisatieschema om het model te versnellen, wat resulteert in een indrukwekkende versnelling van meer dan 20%. Bovendien hebben we een robuust inferentie-algoritme ontwikkeld dat numerieke stabiliteit en consistente inferentiesnelheid garandeert, ongeacht de sequentielengte, wat superieure efficiëntie toont tijdens zowel de trainings- als inferentiefasen. Schaalbaarheid staat centraal in het ontwerp van ons model, waardoor naadloze implementatie op grootschalige clusters mogelijk is en uitbreiding naar nog omvangrijkere modellen wordt gefaciliteerd, allemaal terwijl uitstekende prestatiemetingen worden behouden. Rigoureuze validatie van ons modelontwerp wordt bereikt door een reeks uitgebreide experimenten op ons zelfverzamelde corpus, dat een omvang van meer dan 6TB heeft en meer dan 2 biljoen tokens bevat. Om de kwaliteit en relevantie van de data te waarborgen, implementeren we een nieuwe zelfreinigingsstrategie om onze verzamelde data te filteren. Onze voorgetrainde modellen zullen worden vrijgegeven om gemeenschapsvooruitgang in efficiënte LLM's te bevorderen.
English
We present TransNormerLLM, the first linear attention-based Large Language
Model (LLM) that outperforms conventional softmax attention-based models in
terms of both accuracy and efficiency. TransNormerLLM evolves from the previous
linear attention architecture TransNormer by making advanced modifications that
include positional embedding, linear attention acceleration, gating mechanism,
tensor normalization, inference acceleration and stabilization. Specifically,
we use LRPE together with an exponential decay to avoid attention dilution
issues while allowing the model to retain global interactions between tokens.
Additionally, we propose Lightning Attention, a cutting-edge technique that
accelerates linear attention by more than twice in runtime and reduces memory
usage by a remarkable four times. To further enhance the performance of
TransNormer, we leverage a gating mechanism to smooth training and a new tensor
normalization scheme to accelerate the model, resulting in an impressive
acceleration of over 20%. Furthermore, we have developed a robust inference
algorithm that ensures numerical stability and consistent inference speed,
regardless of the sequence length, showcasing superior efficiency during both
training and inference stages. Scalability is at the heart of our model's
design, enabling seamless deployment on large-scale clusters and facilitating
expansion to even more extensive models, all while maintaining outstanding
performance metrics. Rigorous validation of our model design is achieved
through a series of comprehensive experiments on our self-collected corpus,
boasting a size exceeding 6TB and containing over 2 trillion tokens. To ensure
data quality and relevance, we implement a new self-cleaning strategy to filter
our collected data. Our pre-trained models will be released to foster community
advancements in efficient LLMs.