Scalabilità di TransNormer fino a 175 miliardi di parametri
Scaling TransNormer to 175 Billion Parameters
July 27, 2023
Autori: Zhen Qin, Dong Li, Weigao Sun, Weixuan Sun, Xuyang Shen, Xiaodong Han, Yunshen Wei, Baohong Lv, Fei Yuan, Xiao Luo, Yu Qiao, Yiran Zhong
cs.AI
Abstract
Presentiamo TransNormerLLM, il primo Large Language Model (LLM) basato su attenzione lineare che supera i modelli convenzionali basati su attenzione softmax sia in termini di accuratezza che di efficienza. TransNormerLLM si evolve dall'architettura di attenzione lineare precedente, TransNormer, apportando modifiche avanzate che includono l'embedding posizionale, l'accelerazione dell'attenzione lineare, un meccanismo di gating, la normalizzazione tensoriale, l'accelerazione e la stabilizzazione dell'inferenza. Nello specifico, utilizziamo LRPE insieme a un decadimento esponenziale per evitare problemi di diluizione dell'attenzione, consentendo al modello di mantenere interazioni globali tra i token. Inoltre, proponiamo Lightning Attention, una tecnica all'avanguardia che accelera l'attenzione lineare più del doppio in termini di runtime e riduce l'uso della memoria di ben quattro volte. Per migliorare ulteriormente le prestazioni di TransNormer, sfruttiamo un meccanismo di gating per rendere più fluido l'addestramento e un nuovo schema di normalizzazione tensoriale per accelerare il modello, ottenendo un'impressionante accelerazione superiore al 20%. Inoltre, abbiamo sviluppato un robusto algoritmo di inferenza che garantisce stabilità numerica e velocità di inferenza costante, indipendentemente dalla lunghezza della sequenza, dimostrando un'efficienza superiore sia durante l'addestramento che durante l'inferenza. La scalabilità è al centro del design del nostro modello, consentendo un'implementazione senza soluzione di continuità su cluster di grandi dimensioni e facilitando l'espansione verso modelli ancora più estesi, mantenendo al contempo metriche di prestazioni eccezionali. La validazione rigorosa del design del nostro modello è stata ottenuta attraverso una serie di esperimenti completi sul nostro corpus auto-raccolto, che vanta una dimensione superiore a 6TB e contiene oltre 2 trilioni di token. Per garantire la qualità e la rilevanza dei dati, implementiamo una nuova strategia di auto-pulizia per filtrare i dati raccolti. I nostri modelli pre-addestrati verranno rilasciati per favorire i progressi della comunità nell'ambito degli LLM efficienti.
English
We present TransNormerLLM, the first linear attention-based Large Language
Model (LLM) that outperforms conventional softmax attention-based models in
terms of both accuracy and efficiency. TransNormerLLM evolves from the previous
linear attention architecture TransNormer by making advanced modifications that
include positional embedding, linear attention acceleration, gating mechanism,
tensor normalization, inference acceleration and stabilization. Specifically,
we use LRPE together with an exponential decay to avoid attention dilution
issues while allowing the model to retain global interactions between tokens.
Additionally, we propose Lightning Attention, a cutting-edge technique that
accelerates linear attention by more than twice in runtime and reduces memory
usage by a remarkable four times. To further enhance the performance of
TransNormer, we leverage a gating mechanism to smooth training and a new tensor
normalization scheme to accelerate the model, resulting in an impressive
acceleration of over 20%. Furthermore, we have developed a robust inference
algorithm that ensures numerical stability and consistent inference speed,
regardless of the sequence length, showcasing superior efficiency during both
training and inference stages. Scalability is at the heart of our model's
design, enabling seamless deployment on large-scale clusters and facilitating
expansion to even more extensive models, all while maintaining outstanding
performance metrics. Rigorous validation of our model design is achieved
through a series of comprehensive experiments on our self-collected corpus,
boasting a size exceeding 6TB and containing over 2 trillion tokens. To ensure
data quality and relevance, we implement a new self-cleaning strategy to filter
our collected data. Our pre-trained models will be released to foster community
advancements in efficient LLMs.