Megalodon: Addestramento e Inferenza Efficiente per Modelli Linguistici di Grande Dimensione con Lunghezza del Contesto Illimitata

Abstract

La complessità quadratica e la debole estrapolazione di lunghezza dei Transformer limitano la loro capacità di scalare su sequenze lunghe, e sebbene esistano soluzioni sub-quadratiche come l'attenzione lineare e i modelli a spazio di stati, queste empiricamente si dimostrano inferiori ai Transformer in termini di efficienza di pre-addestramento e accuratezza nei task downstream. Introduciamo Megalodon, un'architettura neurale per la modellazione efficiente di sequenze con lunghezza di contesto illimitata. Megalodon eredita l'architettura di Mega (media mobile esponenziale con attenzione gated) e introduce ulteriori componenti tecnici per migliorarne le capacità e la stabilità, tra cui la media mobile esponenziale complessa (CEMA), il livello di normalizzazione temporale, il meccanismo di attenzione normalizzata e la pre-norm con configurazione residua a due hop. In un confronto diretto e controllato con Llama2, Megalodon raggiunge una migliore efficienza rispetto al Transformer nella scala di 7 miliardi di parametri e 2 trilioni di token di addestramento. Megalodon raggiunge una perdita di addestramento di 1.70, posizionandosi a metà strada tra Llama2-7B (1.75) e 13B (1.67). Codice: https://github.com/XuezheMax/megalodon

English

The quadratic complexity and weak length extrapolation of Transformers limits their ability to scale to long sequences, and while sub-quadratic solutions like linear attention and state space models exist, they empirically underperform Transformers in pretraining efficiency and downstream task accuracy. We introduce Megalodon, a neural architecture for efficient sequence modeling with unlimited context length. Megalodon inherits the architecture of Mega (exponential moving average with gated attention), and further introduces multiple technical components to improve its capability and stability, including complex exponential moving average (CEMA), timestep normalization layer, normalized attention mechanism and pre-norm with two-hop residual configuration. In a controlled head-to-head comparison with Llama2, Megalodon achieves better efficiency than Transformer in the scale of 7 billion parameters and 2 trillion training tokens. Megalodon reaches a training loss of 1.70, landing mid-way between Llama2-7B (1.75) and 13B (1.67). Code: https://github.com/XuezheMax/megalodon

Megalodon: Addestramento e Inferenza Efficiente per Modelli Linguistici di Grande Dimensione con Lunghezza del Contesto Illimitata

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

Abstract

Support