Gecko: un'architettura neurale efficiente per l'elaborazione intrinseca di sequenze di lunghezza arbitraria

Abstract

Progettare una rete neurale unificata in grado di elaborare in modo efficiente e intrinseco dati sequenziali di lunghezza arbitraria rappresenta un problema centrale e complesso nella modellazione di sequenze. Le scelte progettuali del Transformer, inclusa la complessità quadratica e la debole estrapolazione di lunghezza, ne hanno limitato la capacità di scalare su sequenze lunghe. In questo lavoro, proponiamo Gecko, un'architettura neurale che eredita il design di Mega e Megalodon (media mobile esponenziale con attenzione gated), e introduce ulteriori componenti tecnici per migliorare la sua capacità di catturare dipendenze a lungo raggio, inclusi la normalizzazione per decadimento temporale, il meccanismo di attenzione a blocchi scorrevoli e la memoria di lavoro adattiva. In un confronto controllato di pre-addestramento con Llama2 e Megalodon sulla scala di 7 miliardi di parametri e 2 trilioni di token di training, Gecko raggiunge una migliore efficienza e scalabilità di contesto lungo. Gecko raggiunge una loss di training di 1.68, superando significativamente Llama2-7B (1.75) e Megalodon-7B (1.70), e avvicinandosi a Llama2-13B (1.67). Notevolmente, senza fare affidamento su tecniche di estensione del contesto, Gecko mostra capacità intrinseche di elaborazione e recupero di contesti lunghi, gestendo stabilmente sequenze fino a 4 milioni di token e recuperando informazioni da contesti fino a 4 volte più lunghi della sua finestra di attenzione. Codice: https://github.com/XuezheMax/gecko-llm

English

Designing a unified neural network to efficiently and inherently process sequential data with arbitrary lengths is a central and challenging problem in sequence modeling. The design choices in Transformer, including quadratic complexity and weak length extrapolation, have limited their ability to scale to long sequences. In this work, we propose Gecko, a neural architecture that inherits the design of Mega and Megalodon (exponential moving average with gated attention), and further introduces multiple technical components to improve its capability to capture long range dependencies, including timestep decay normalization, sliding chunk attention mechanism, and adaptive working memory. In a controlled pretraining comparison with Llama2 and Megalodon in the scale of 7 billion parameters and 2 trillion training tokens, Gecko achieves better efficiency and long-context scalability. Gecko reaches a training loss of 1.68, significantly outperforming Llama2-7B (1.75) and Megalodon-7B (1.70), and landing close to Llama2-13B (1.67). Notably, without relying on any context-extension techniques, Gecko exhibits inherent long-context processing and retrieval capabilities, stably handling sequences of up to 4 million tokens and retrieving information from contexts up to 4times longer than its attention window. Code: https://github.com/XuezheMax/gecko-llm

Gecko: un'architettura neurale efficiente per l'elaborazione intrinseca di sequenze di lunghezza arbitraria

Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths

Abstract

Support