Gecko: Una Arquitectura Neural Eficiente que Procesa Secuencias de Longitudes Arbitrarias de Manera Innata
Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths
January 10, 2026
Autores: Xuezhe Ma, Shicheng Wen, Linghao Jin, Bilge Acun, Ruihang Lai, Bohan Hou, Will Lin, Hao Zhang, Songlin Yang, Ryan Lee, Mengxi Wu, Jonathan May, Luke Zettlemoyer, Carole-Jean Wu
cs.AI
Resumen
Diseñar una red neuronal unificada que procese de manera eficiente e inherente datos secuenciales con longitudes arbitrarias es un problema central y desafiante en el modelado de secuencias. Las decisiones de diseño en Transformer, que incluyen la complejidad cuadrática y la débil extrapolación de longitud, han limitado su capacidad para escalar a secuencias largas. En este trabajo, proponemos Gecko, una arquitectura neuronal que hereda el diseño de Mega y Megalodon (media móvil exponencial con atención mecanizada), e introduce además múltiples componentes técnicos para mejorar su capacidad de capturar dependencias de largo alcance, incluyendo la normalización por decaimiento temporal, el mecanismo de atención por fragmentos deslizantes y la memoria de trabajo adaptativa. En una comparación controlada de preentrenamiento con Llama2 y Megalodon a escala de 7 mil millones de parámetros y 2 billones de tokens de entrenamiento, Gecko logra una mejor eficiencia y escalabilidad de contexto largo. Gecko alcanza una pérdida de entrenamiento de 1.68, superando significativamente a Llama2-7B (1.75) y Megalodon-7B (1.70), y acercándose a Llama2-13B (1.67). Notablemente, sin depender de ninguna técnica de extensión de contexto, Gecko exhibe capacidades inherentes de procesamiento y recuperación de contexto largo, manejando de manera estable secuencias de hasta 4 millones de tokens y recuperando información de contextos hasta 4 veces más largos que su ventana de atención. Código: https://github.com/XuezheMax/gecko-llm
English
Designing a unified neural network to efficiently and inherently process sequential data with arbitrary lengths is a central and challenging problem in sequence modeling. The design choices in Transformer, including quadratic complexity and weak length extrapolation, have limited their ability to scale to long sequences. In this work, we propose Gecko, a neural architecture that inherits the design of Mega and Megalodon (exponential moving average with gated attention), and further introduces multiple technical components to improve its capability to capture long range dependencies, including timestep decay normalization, sliding chunk attention mechanism, and adaptive working memory. In a controlled pretraining comparison with Llama2 and Megalodon in the scale of 7 billion parameters and 2 trillion training tokens, Gecko achieves better efficiency and long-context scalability. Gecko reaches a training loss of 1.68, significantly outperforming Llama2-7B (1.75) and Megalodon-7B (1.70), and landing close to Llama2-13B (1.67). Notably, without relying on any context-extension techniques, Gecko exhibits inherent long-context processing and retrieval capabilities, stably handling sequences of up to 4 million tokens and retrieving information from contexts up to 4times longer than its attention window. Code: https://github.com/XuezheMax/gecko-llm