ゲッコー:任意長の系列を本質的に処理する効率的な神経アーキテクチャ
Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths
January 10, 2026
著者: Xuezhe Ma, Shicheng Wen, Linghao Jin, Bilge Acun, Ruihang Lai, Bohan Hou, Will Lin, Hao Zhang, Songlin Yang, Ryan Lee, Mengxi Wu, Jonathan May, Luke Zettlemoyer, Carole-Jean Wu
cs.AI
要旨
任意長の系列データを効率的かつ内在的に処理する統一ニューラルネットワークの設計は、系列モデリングにおける中心的な課題である。Transformerの設計上の選択(二次計算量や弱い長さ外挿性など)は、長系列へのスケーリングを制限してきた。本研究では、MegaおよびMegalodon(ゲート付き注意機構を伴う指数移動平均)の設計を継承し、さらに長期依存性の捕捉能力を向上させる複数の技術的要素(タイムステップ減衰正規化、スライディングチャンク注意機構、適応的ワーキングメモリ)を導入した神経アーキテクチャGeckoを提案する。70億パラメータ・2兆訓練トークン規模でLlama2およびMegalodonと実施した管理された事前学習比較において、Geckoは優れた効率性と長文脈スケーラビリティを達成した。Geckoの訓練損失は1.68に達し、Llama2-7B(1.75)およびMegalodon-7B(1.70)を大幅に上回り、Llama2-13B(1.67)に迫る性能を示した。特筆すべきは、Geckoが文脈拡張技術に依存することなく、内在的な長文脈処理・検索能力を発揮し、最大400万トークンの系列を安定して処理し、その注意ウィンドウ長の4倍までの文脈から情報を検索できる点である。コード: https://github.com/XuezheMax/gecko-llm
English
Designing a unified neural network to efficiently and inherently process sequential data with arbitrary lengths is a central and challenging problem in sequence modeling. The design choices in Transformer, including quadratic complexity and weak length extrapolation, have limited their ability to scale to long sequences. In this work, we propose Gecko, a neural architecture that inherits the design of Mega and Megalodon (exponential moving average with gated attention), and further introduces multiple technical components to improve its capability to capture long range dependencies, including timestep decay normalization, sliding chunk attention mechanism, and adaptive working memory. In a controlled pretraining comparison with Llama2 and Megalodon in the scale of 7 billion parameters and 2 trillion training tokens, Gecko achieves better efficiency and long-context scalability. Gecko reaches a training loss of 1.68, significantly outperforming Llama2-7B (1.75) and Megalodon-7B (1.70), and landing close to Llama2-13B (1.67). Notably, without relying on any context-extension techniques, Gecko exhibits inherent long-context processing and retrieval capabilities, stably handling sequences of up to 4 million tokens and retrieving information from contexts up to 4times longer than its attention window. Code: https://github.com/XuezheMax/gecko-llm