ChatPaper.aiChatPaper

Treinamento de Fim a Fim Durante o Teste para Contexto Longo

End-to-End Test-Time Training for Long Context

December 29, 2025
Autores: Arnuv Tandon, Karan Dalal, Xinhao Li, Daniel Koceja, Marcel Rød, Sam Buchanan, Xiaolong Wang, Jure Leskovec, Sanmi Koyejo, Tatsunori Hashimoto, Carlos Guestrin, Jed McCaleb, Yejin Choi, Yu Sun
cs.AI

Resumo

Formulamos a modelagem de linguagem de contexto longo como um problema de aprendizagem contínua, em vez de um projeto de arquitetura. Sob esta formulação, utilizamos apenas uma arquitetura padrão — um Transformer com atenção de janela deslizante. No entanto, nosso modelo continua aprendendo durante o teste por meio da previsão do próximo token no contexto fornecido, comprimindo o contexto que lê em seus pesos. Além disso, melhoramos a inicialização do modelo para aprendizagem durante o teste por meio de meta-aprendizagem durante o treinamento. No geral, nosso método, uma forma de Treinamento Durante o Teste (TTT), é Integral (E2E) tanto no momento do teste (via previsão do próximo token) quanto no treinamento (via meta-aprendizagem), em contraste com formas anteriores. Realizamos experimentos extensos com foco nas propriedades de escalabilidade. Em particular, para modelos de 3B treinados com 164B de tokens, nosso método (TTT-E2E) escala com o comprimento do contexto da mesma forma que o Transformer com atenção completa, enquanto outros, como Mamba 2 e Gated DeltaNet, não o fazem. No entanto, semelhante às RNNs, o TTT-E2E tem latência de inferência constante, independentemente do comprimento do contexto, tornando-o 2,7 vezes mais rápido que a atenção completa para um contexto de 128K. Nosso código está publicamente disponível.
English
We formulate long-context language modeling as a problem in continual learning rather than architecture design. Under this formulation, we only use a standard architecture -- a Transformer with sliding-window attention. However, our model continues learning at test time via next-token prediction on the given context, compressing the context it reads into its weights. In addition, we improve the model's initialization for learning at test time via meta-learning at training time. Overall, our method, a form of Test-Time Training (TTT), is End-to-End (E2E) both at test time (via next-token prediction) and training time (via meta-learning), in contrast to previous forms. We conduct extensive experiments with a focus on scaling properties. In particular, for 3B models trained with 164B tokens, our method (TTT-E2E) scales with context length in the same way as Transformer with full attention, while others, such as Mamba 2 and Gated DeltaNet, do not. However, similar to RNNs, TTT-E2E has constant inference latency regardless of context length, making it 2.7 times faster than full attention for 128K context. Our code is publicly available.
PDF60January 1, 2026