ChatPaper.aiChatPaper

Gecko: 임의 길이 시퀀스를 본질적으로 처리하는 효율적인 신경망 구조

Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths

January 10, 2026
저자: Xuezhe Ma, Shicheng Wen, Linghao Jin, Bilge Acun, Ruihang Lai, Bohan Hou, Will Lin, Hao Zhang, Songlin Yang, Ryan Lee, Mengxi Wu, Jonathan May, Luke Zettlemoyer, Carole-Jean Wu
cs.AI

초록

임의 길이의 시퀀스 데이터를 효율적이고 내재적으로 처리하는 통합 신경망을 설계하는 것은 시퀀스 모델링에서 핵심적이면서도 어려운 과제입니다. Transformer의 설계 선택(2차 복잡도 및 약한 길이 외삽 능력 등)은 긴 시퀀스로 확장하는 데 한계를 보였습니다. 본 연구에서는 Mega와 Megalodon(게이트 어텐션과 지수 이동 평균 결합)의 설계를 계승하고, 장기 의존성 포착 능력을 향상시키기 위해 시간 감쇠 정규화, 슬라이딩 청크 어텐션 메커니즘, 적응형 작업 기억 등 여러 기술적 구성 요소를 추가로 도입한 Gecko 신경망 아키텍처를 제안합니다. 70억 개의 매개변수와 2조 개의 훈련 토큰 규모에서 Llama2 및 Megalodon과의 통제된 사전 훈련 비교에서 Gecko는 더 나은 효율성과 장문맥 확장성을 입증했습니다. Gecko는 1.68의 훈련 손실을 달성하여 Llama2-7B(1.75) 및 Megalodon-7B(1.70)를 크게 앞섰으며, Llama2-13B(1.67)에 근접한 성능을 보였습니다. 특히, 어떠한 문맥 확장 기술에도 의존하지 않으면서 Gecko는 내재적인 장문맥 처리 및 검색 능력을 보여주며, 최대 400만 토큰 길이의 시퀀스를 안정적으로 처리하고 어텐션 윈도우 길이의 최대 4배에 달하는 문맥에서 정보를 검색할 수 있었습니다. 코드: https://github.com/XuezheMax/gecko-llm
English
Designing a unified neural network to efficiently and inherently process sequential data with arbitrary lengths is a central and challenging problem in sequence modeling. The design choices in Transformer, including quadratic complexity and weak length extrapolation, have limited their ability to scale to long sequences. In this work, we propose Gecko, a neural architecture that inherits the design of Mega and Megalodon (exponential moving average with gated attention), and further introduces multiple technical components to improve its capability to capture long range dependencies, including timestep decay normalization, sliding chunk attention mechanism, and adaptive working memory. In a controlled pretraining comparison with Llama2 and Megalodon in the scale of 7 billion parameters and 2 trillion training tokens, Gecko achieves better efficiency and long-context scalability. Gecko reaches a training loss of 1.68, significantly outperforming Llama2-7B (1.75) and Megalodon-7B (1.70), and landing close to Llama2-13B (1.67). Notably, without relying on any context-extension techniques, Gecko exhibits inherent long-context processing and retrieval capabilities, stably handling sequences of up to 4 million tokens and retrieving information from contexts up to 4times longer than its attention window. Code: https://github.com/XuezheMax/gecko-llm
PDF23January 31, 2026