End-to-End-Testzeit-Training für lange Kontexte
End-to-End Test-Time Training for Long Context
December 29, 2025
papers.authors: Arnuv Tandon, Karan Dalal, Xinhao Li, Daniel Koceja, Marcel Rød, Sam Buchanan, Xiaolong Wang, Jure Leskovec, Sanmi Koyejo, Tatsunori Hashimoto, Carlos Guestrin, Jed McCaleb, Yejin Choi, Yu Sun
cs.AI
papers.abstract
Wir formulieren Sprachmodellierung mit langem Kontext als Problem des kontinuierlichen Lernens und nicht der Architekturgestaltung. Unter dieser Formulierung verwenden wir ausschließlich eine Standardarchitektur – einen Transformer mit Sliding-Window-Aufmerksamkeit. Unser Modell setzt das Lernen jedoch zur Testzeit mittels Next-Token-Prediction auf dem gegebenen Kontext fort und komprimiert den gelesenen Kontext in seinen Gewichten. Zusätzlich verbessern wir die Initialisierung des Modells für das Lernen zur Testzeit durch Meta-Lernen während der Trainingszeit. Insgesamt ist unsere Methode, eine Form von Test-Time Training (TTT), sowohl zur Testzeit (durch Next-Token-Prediction) als auch zur Trainingszeit (durch Meta-Lernen) End-to-End (E2E), im Gegensatz zu früheren Ansätzen. Wir führen umfangreiche Experimente durch mit Fokus auf Skalierungseigenschaften. Insbesondere skaliert bei 3B-Modellen, die mit 164B Tokens trainiert wurden, unsere Methode (TTT-E2E) mit der Kontextlänge auf die gleiche Weise wie ein Transformer mit vollständiger Aufmerksamkeit, während andere, wie Mamba 2 und Gated DeltaNet, dies nicht tun. Ähnlich wie RNNs weist TTT-E2E jedoch eine konstante Inferenzlatenz unabhängig von der Kontextlänge auf, was es für 128K Kontext 2,7-mal schneller als vollständige Aufmerksamkeit macht. Unser Code ist öffentlich verfügbar.
English
We formulate long-context language modeling as a problem in continual learning rather than architecture design. Under this formulation, we only use a standard architecture -- a Transformer with sliding-window attention. However, our model continues learning at test time via next-token prediction on the given context, compressing the context it reads into its weights. In addition, we improve the model's initialization for learning at test time via meta-learning at training time. Overall, our method, a form of Test-Time Training (TTT), is End-to-End (E2E) both at test time (via next-token prediction) and training time (via meta-learning), in contrast to previous forms. We conduct extensive experiments with a focus on scaling properties. In particular, for 3B models trained with 164B tokens, our method (TTT-E2E) scales with context length in the same way as Transformer with full attention, while others, such as Mamba 2 and Gated DeltaNet, do not. However, similar to RNNs, TTT-E2E has constant inference latency regardless of context length, making it 2.7 times faster than full attention for 128K context. Our code is publicly available.