Treinamento de Fim a Fim Durante o Teste para Contexto Longo

Resumo

Formulamos a modelagem de linguagem de contexto longo como um problema de aprendizagem contínua, em vez de um projeto de arquitetura. Sob esta formulação, utilizamos apenas uma arquitetura padrão — um Transformer com atenção de janela deslizante. No entanto, nosso modelo continua aprendendo durante o teste por meio da previsão do próximo token no contexto fornecido, comprimindo o contexto que lê em seus pesos. Além disso, melhoramos a inicialização do modelo para aprendizagem durante o teste por meio de meta-aprendizagem durante o treinamento. No geral, nosso método, uma forma de Treinamento Durante o Teste (TTT), é Integral (E2E) tanto no momento do teste (via previsão do próximo token) quanto no treinamento (via meta-aprendizagem), em contraste com formas anteriores. Realizamos experimentos extensos com foco nas propriedades de escalabilidade. Em particular, para modelos de 3B treinados com 164B de tokens, nosso método (TTT-E2E) escala com o comprimento do contexto da mesma forma que o Transformer com atenção completa, enquanto outros, como Mamba 2 e Gated DeltaNet, não o fazem. No entanto, semelhante às RNNs, o TTT-E2E tem latência de inferência constante, independentemente do comprimento do contexto, tornando-o 2,7 vezes mais rápido que a atenção completa para um contexto de 128K. Nosso código está publicamente disponível.

English

We formulate long-context language modeling as a problem in continual learning rather than architecture design. Under this formulation, we only use a standard architecture -- a Transformer with sliding-window attention. However, our model continues learning at test time via next-token prediction on the given context, compressing the context it reads into its weights. In addition, we improve the model's initialization for learning at test time via meta-learning at training time. Overall, our method, a form of Test-Time Training (TTT), is End-to-End (E2E) both at test time (via next-token prediction) and training time (via meta-learning), in contrast to previous forms. We conduct extensive experiments with a focus on scaling properties. In particular, for 3B models trained with 164B tokens, our method (TTT-E2E) scales with context length in the same way as Transformer with full attention, while others, such as Mamba 2 and Gated DeltaNet, do not. However, similar to RNNs, TTT-E2E has constant inference latency regardless of context length, making it 2.7 times faster than full attention for 128K context. Our code is publicly available.

Treinamento de Fim a Fim Durante o Teste para Contexto Longo

End-to-End Test-Time Training for Long Context

Resumo

Support