Megalodon: Addestramento e Inferenza Efficiente per Modelli Linguistici di Grande Dimensione con Lunghezza del Contesto Illimitata
Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length
April 12, 2024
Autori: Xuezhe Ma, Xiaomeng Yang, Wenhan Xiong, Beidi Chen, Lili Yu, Hao Zhang, Jonathan May, Luke Zettlemoyer, Omer Levy, Chunting Zhou
cs.AI
Abstract
La complessità quadratica e la debole estrapolazione di lunghezza dei Transformer limitano la loro capacità di scalare su sequenze lunghe, e sebbene esistano soluzioni sub-quadratiche come l'attenzione lineare e i modelli a spazio di stati, queste empiricamente si dimostrano inferiori ai Transformer in termini di efficienza di pre-addestramento e accuratezza nei task downstream. Introduciamo Megalodon, un'architettura neurale per la modellazione efficiente di sequenze con lunghezza di contesto illimitata. Megalodon eredita l'architettura di Mega (media mobile esponenziale con attenzione gated) e introduce ulteriori componenti tecnici per migliorarne le capacità e la stabilità, tra cui la media mobile esponenziale complessa (CEMA), il livello di normalizzazione temporale, il meccanismo di attenzione normalizzata e la pre-norm con configurazione residua a due hop. In un confronto diretto e controllato con Llama2, Megalodon raggiunge una migliore efficienza rispetto al Transformer nella scala di 7 miliardi di parametri e 2 trilioni di token di addestramento. Megalodon raggiunge una perdita di addestramento di 1.70, posizionandosi a metà strada tra Llama2-7B (1.75) e 13B (1.67). Codice: https://github.com/XuezheMax/megalodon
English
The quadratic complexity and weak length extrapolation of Transformers limits
their ability to scale to long sequences, and while sub-quadratic solutions
like linear attention and state space models exist, they empirically
underperform Transformers in pretraining efficiency and downstream task
accuracy. We introduce Megalodon, a neural architecture for efficient sequence
modeling with unlimited context length. Megalodon inherits the architecture of
Mega (exponential moving average with gated attention), and further introduces
multiple technical components to improve its capability and stability,
including complex exponential moving average (CEMA), timestep normalization
layer, normalized attention mechanism and pre-norm with two-hop residual
configuration. In a controlled head-to-head comparison with Llama2, Megalodon
achieves better efficiency than Transformer in the scale of 7 billion
parameters and 2 trillion training tokens. Megalodon reaches a training loss of
1.70, landing mid-way between Llama2-7B (1.75) and 13B (1.67). Code:
https://github.com/XuezheMax/megalodon