ChatPaper.aiChatPaper

Геккон: Эффективная нейросетевая архитектура для обработки последовательностей произвольной длины

Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths

January 10, 2026
Авторы: Xuezhe Ma, Shicheng Wen, Linghao Jin, Bilge Acun, Ruihang Lai, Bohan Hou, Will Lin, Hao Zhang, Songlin Yang, Ryan Lee, Mengxi Wu, Jonathan May, Luke Zettlemoyer, Carole-Jean Wu
cs.AI

Аннотация

Создание единой нейронной сети, способной эффективно и естественно обрабатывать последовательные данные произвольной длины, является ключевой и сложной проблемой в моделировании последовательностей. Конструктивные решения в Transformer, включая квадратичную сложность и слабую экстраполяцию по длине, ограничили их способность масштабироваться на длинные последовательности. В данной работе мы предлагаем Gecko — нейронную архитектуру, которая наследует дизайн Mega и Megalodon (экспоненциальное скользящее среднее с механизмом взвешенного внимания) и дополнительно вводит несколько технических компонентов для улучшения её способности улавливать дальние зависимости, включая нормализацию с затуханием по времени, механизм внимания со скользящими чанками и адактивную рабочую память. В контролируемом сравнении предварительного обучения с Llama2 и Megalodon в масштабе 7 миллиардов параметров и 2 триллионов токенов обучения Gecko демонстрирует лучшую эффективность и масштабируемость для длинного контекста. Gecko достигает значения функции потерь при обучении 1.68, что значительно превосходит показатели Llama2-7B (1.75) и Megalodon-7B (1.70) и приближается к результату Llama2-13B (1.67). Примечательно, что без использования каких-либо техник расширения контекста Gecko проявляет врождённые способности к обработке длинного контекста и извлечению информации, стабильно работая с последовательностями длиной до 4 миллионов токенов и извлекая информацию из контекстов длиной до 4 раз превышающих её окно внимания. Код: https://github.com/XuezheMax/gecko-llm
English
Designing a unified neural network to efficiently and inherently process sequential data with arbitrary lengths is a central and challenging problem in sequence modeling. The design choices in Transformer, including quadratic complexity and weak length extrapolation, have limited their ability to scale to long sequences. In this work, we propose Gecko, a neural architecture that inherits the design of Mega and Megalodon (exponential moving average with gated attention), and further introduces multiple technical components to improve its capability to capture long range dependencies, including timestep decay normalization, sliding chunk attention mechanism, and adaptive working memory. In a controlled pretraining comparison with Llama2 and Megalodon in the scale of 7 billion parameters and 2 trillion training tokens, Gecko achieves better efficiency and long-context scalability. Gecko reaches a training loss of 1.68, significantly outperforming Llama2-7B (1.75) and Megalodon-7B (1.70), and landing close to Llama2-13B (1.67). Notably, without relying on any context-extension techniques, Gecko exhibits inherent long-context processing and retrieval capabilities, stably handling sequences of up to 4 million tokens and retrieving information from contexts up to 4times longer than its attention window. Code: https://github.com/XuezheMax/gecko-llm
PDF23January 31, 2026