Gecko: Eine effiziente neuronale Architektur zur inhärenten Verarbeitung von Sequenzen beliebiger Länge

papers.abstract

Die Entwicklung eines einheitlichen neuronalen Netzwerks, das sequentielle Daten beliebiger Länge effizient und inhärent verarbeiten kann, ist ein zentrales und herausforderndes Problem in der Sequenzmodellierung. Die Designentscheidungen beim Transformer – einschließlich quadratischer Komplexität und schwacher Längenextrapolation – haben dessen Skalierbarkeit auf lange Sequenzen begrenzt. In dieser Arbeit stellen wir Gecko vor, eine neuronale Architektur, die das Design von Mega und Megalodon (exponentiell gleitender Durchschnitt mit gated Attention) erbt und durch mehrere technische Komponenten erweitert, um die Erfassung langreichweitiger Abhängigkeiten zu verbessern. Dazu gehören Timestep Decay Normalization, ein Sliding-Chunk-Attention-Mechanismus und adaptiver Arbeitspeicher. In einem kontrollierten Vortrainingsvergleich mit Llama2 und Megalodon im Maßstab von 7 Milliarden Parametern und 2 Billionen Trainingstokens erzielt Gecko eine bessere Effizienz und Skalierbarkeit für lange Kontexte. Gecko erreicht einen Trainingsverlust von 1,68 und übertrifft damit Llama2-7B (1,75) und Megalodon-7B (1,70) signifikant, wobei es nahe an Llama2-13B (1,67) heranreicht. Bemerkenswerterweise zeigt Gecko ohne Verwendung von Kontextverlängerungstechniken inhärente Fähigkeiten zur Verarbeitung und Abfrage langer Kontexte, verarbeitet stabil Sequenzen von bis zu 4 Millionen Tokens und ruft Informationen aus Kontexten ab, die bis zu 4-mal länger sind als sein Attention-Fenster. Code: https://github.com/XuezheMax/gecko-llm

English

Designing a unified neural network to efficiently and inherently process sequential data with arbitrary lengths is a central and challenging problem in sequence modeling. The design choices in Transformer, including quadratic complexity and weak length extrapolation, have limited their ability to scale to long sequences. In this work, we propose Gecko, a neural architecture that inherits the design of Mega and Megalodon (exponential moving average with gated attention), and further introduces multiple technical components to improve its capability to capture long range dependencies, including timestep decay normalization, sliding chunk attention mechanism, and adaptive working memory. In a controlled pretraining comparison with Llama2 and Megalodon in the scale of 7 billion parameters and 2 trillion training tokens, Gecko achieves better efficiency and long-context scalability. Gecko reaches a training loss of 1.68, significantly outperforming Llama2-7B (1.75) and Megalodon-7B (1.70), and landing close to Llama2-13B (1.67). Notably, without relying on any context-extension techniques, Gecko exhibits inherent long-context processing and retrieval capabilities, stably handling sequences of up to 4 million tokens and retrieving information from contexts up to 4times longer than its attention window. Code: https://github.com/XuezheMax/gecko-llm

Gecko: Eine effiziente neuronale Architektur zur inhärenten Verarbeitung von Sequenzen beliebiger Länge

Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths

papers.abstract

Support