Gecko: Uma Arquitetura Neural Eficiente com Processamento Inerente de Sequências de Comprimentos Arbitrários

Resumo

Projetar uma rede neural unificada para processar dados sequenciais de comprimentos arbitrários de forma eficiente e inerente é um problema central e desafiador na modelagem de sequências. As escolhas de projeto no Transformer, incluindo a complexidade quadrática e a fraca extrapolação de comprimento, limitaram sua capacidade de escalar para sequências longas. Neste trabalho, propomos o Gecko, uma arquitetura neural que herda o design do Mega e do Megalodon (média móvel exponencial com atenção com portas), e introduz ainda vários componentes técnicos para melhorar sua capacidade de capturar dependências de longo alcance, incluindo normalização de decaimento temporal, mecanismo de atenção por blocos deslizantes e memória de trabalho adaptativa. Numa comparação controlada de pré-treinamento com o Llama2 e o Megalodon na escala de 7 bilhões de parâmetros e 2 trilhões de tokens de treinamento, o Gecko alcança melhor eficiência e escalabilidade de contexto longo. O Gecko atinge uma perda de treinamento de 1.68, superando significativamente o Llama2-7B (1.75) e o Megalodon-7B (1.70), e aproximando-se do Llama2-13B (1.67). Notavelmente, sem depender de qualquer técnica de extensão de contexto, o Gecko exibe capacidades inerentes de processamento e recuperação de contexto longo, lidando de forma estável com sequências de até 4 milhões de tokens e recuperando informações de contextos até 4 vezes mais longos que sua janela de atenção. Código: https://github.com/XuezheMax/gecko-llm

English

Designing a unified neural network to efficiently and inherently process sequential data with arbitrary lengths is a central and challenging problem in sequence modeling. The design choices in Transformer, including quadratic complexity and weak length extrapolation, have limited their ability to scale to long sequences. In this work, we propose Gecko, a neural architecture that inherits the design of Mega and Megalodon (exponential moving average with gated attention), and further introduces multiple technical components to improve its capability to capture long range dependencies, including timestep decay normalization, sliding chunk attention mechanism, and adaptive working memory. In a controlled pretraining comparison with Llama2 and Megalodon in the scale of 7 billion parameters and 2 trillion training tokens, Gecko achieves better efficiency and long-context scalability. Gecko reaches a training loss of 1.68, significantly outperforming Llama2-7B (1.75) and Megalodon-7B (1.70), and landing close to Llama2-13B (1.67). Notably, without relying on any context-extension techniques, Gecko exhibits inherent long-context processing and retrieval capabilities, stably handling sequences of up to 4 million tokens and retrieving information from contexts up to 4times longer than its attention window. Code: https://github.com/XuezheMax/gecko-llm

Gecko: Uma Arquitetura Neural Eficiente com Processamento Inerente de Sequências de Comprimentos Arbitrários

Gecko: An Efficient Neural Architecture Inherently Processing Sequences with Arbitrary Lengths

Resumo

Support