ChatPaper.aiChatPaper

Gecko: Een efficiënte neurale architectuur voor inherente verwerking van sequenties met willekeurige lengtes

Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths

January 10, 2026
Auteurs: Xuezhe Ma, Shicheng Wen, Linghao Jin, Bilge Acun, Ruihang Lai, Bohan Hou, Will Lin, Hao Zhang, Songlin Yang, Ryan Lee, Mengxi Wu, Jonathan May, Luke Zettlemoyer, Carole-Jean Wu
cs.AI

Samenvatting

Het ontwerpen van een uniform neuraal netwerk dat sequentiële gegevens met willekeurige lengtes efficiënt en inherent kan verwerken, is een centrale en uitdagende probleemstelling in sequentiemodellering. De ontwerpkeuzes in de Transformer, waaronder kwadratische complexiteit en zwakke lengte-extrapolatie, hebben het vermogen beperkt om op te schalen naar lange sequenties. In dit werk presenteren we Gecko, een neurale architectuur die de ontwerpelementen van Mega en Megalodon (exponentieel voortschrijdend gemiddelde met gated attention) erft en verder meerdere technische componenten introduceert om het vermogen om lange-afstandsafhankelijkheden te vangen te verbeteren, waaronder timestep decay normalisatie, een sliding chunk attention-mechanisme en adaptief werkgeheugen. In een gecontroleerde pretraining-vergelijking met Llama2 en Megalodon op een schaal van 7 miljard parameters en 2 biljoen trainings tokens, behaalt Gecko betere efficiëntie en schaalbaarheid voor lange contexten. Gecko bereikt een trainingsverlies van 1.68, wat significant beter is dan Llama2-7B (1.75) en Megalodon-7B (1.70), en dicht in de buurt komt van Llama2-13B (1.67). Opmerkelijk is dat Gecko, zonder gebruik te maken van enige context-uitbreidingstechnieken, inherente lange-context verwerkings- en retrievalcapaciteiten vertoont, waarbij het stabiel sequenties van tot 4 miljoen tokens verwerkt en informatie kan ophalen uit contexten die tot 4 keer langer zijn dan zijn aandachtvenster. Code: https://github.com/XuezheMax/gecko-llm
English
Designing a unified neural network to efficiently and inherently process sequential data with arbitrary lengths is a central and challenging problem in sequence modeling. The design choices in Transformer, including quadratic complexity and weak length extrapolation, have limited their ability to scale to long sequences. In this work, we propose Gecko, a neural architecture that inherits the design of Mega and Megalodon (exponential moving average with gated attention), and further introduces multiple technical components to improve its capability to capture long range dependencies, including timestep decay normalization, sliding chunk attention mechanism, and adaptive working memory. In a controlled pretraining comparison with Llama2 and Megalodon in the scale of 7 billion parameters and 2 trillion training tokens, Gecko achieves better efficiency and long-context scalability. Gecko reaches a training loss of 1.68, significantly outperforming Llama2-7B (1.75) and Megalodon-7B (1.70), and landing close to Llama2-13B (1.67). Notably, without relying on any context-extension techniques, Gecko exhibits inherent long-context processing and retrieval capabilities, stably handling sequences of up to 4 million tokens and retrieving information from contexts up to 4times longer than its attention window. Code: https://github.com/XuezheMax/gecko-llm
PDF23January 31, 2026