Cada Token Conta: Generalizando Contextos Ultra-Longos de 16M em Modelos de Linguagem de Grande Escala

Resumo

Este trabalho explora o desafio de construir "Máquinas que Podem Lembrar", enquadrando a memória de longo prazo como o problema da modelagem eficiente de contexto ultra longo. Argumentamos que isso requer três propriedades essenciais: esparsidade, flexibilidade de acesso aleatório e generalização de comprimento. Para abordar a modelagem de contexto ultra longo, aproveitamos a Atenção Esparsa Hierárquica (HSA), um novo mecanismo de atenção que satisfaz todas as três propriedades. Integramos a HSA em Transformers para construir o HSA-UltraLong, um modelo MoE de 8 bilhões de parâmetros treinado em mais de 8 trilhões de tokens e rigorosamente avaliado em diferentes tarefas com comprimentos de contexto intradomínio e extradomínio para demonstrar sua capacidade de lidar com contextos ultra longos. Os resultados mostram que nosso modelo tem desempenho comparável às linhas de base de atenção completa em comprimentos intradomínio, alcançando mais de 90% de precisão na maioria das tarefas de recuperação em contexto com textos de até 16 milhões de tokens. Este relatório descreve nossas percepções experimentais e problemas em aberto, contribuindo com uma base para pesquisas futuras em modelagem de contexto ultra longo.

English

This work explores the challenge of building ``Machines that Can Remember'', framing long-term memory as the problem of efficient ultra-long context modeling. We argue that this requires three key properties: sparsity, random-access flexibility, and length generalization. To address ultra-long-context modeling, we leverage Hierarchical Sparse Attention (HSA), a novel attention mechanism that satisfies all three properties. We integrate HSA into Transformers to build HSA-UltraLong, which is an 8B-parameter MoE model trained on over 8 trillion tokens and is rigorously evaluated on different tasks with in-domain and out-of-domain context lengths to demonstrate its capability in handling ultra-long contexts. Results show that our model performs comparably to full-attention baselines on in-domain lengths while achieving over 90\% accuracy on most in-context retrieval tasks with contexts up to 16M. This report outlines our experimental insights and open problems, contributing a foundation for future research in ultra-long context modeling.

Cada Token Conta: Generalizando Contextos Ultra-Longos de 16M em Modelos de Linguagem de Grande Escala

Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models

Resumo

Support