End-to-End-Testzeit-Training für lange Kontexte

papers.abstract

Wir formulieren Sprachmodellierung mit langem Kontext als Problem des kontinuierlichen Lernens und nicht der Architekturgestaltung. Unter dieser Formulierung verwenden wir ausschließlich eine Standardarchitektur – einen Transformer mit Sliding-Window-Aufmerksamkeit. Unser Modell setzt das Lernen jedoch zur Testzeit mittels Next-Token-Prediction auf dem gegebenen Kontext fort und komprimiert den gelesenen Kontext in seinen Gewichten. Zusätzlich verbessern wir die Initialisierung des Modells für das Lernen zur Testzeit durch Meta-Lernen während der Trainingszeit. Insgesamt ist unsere Methode, eine Form von Test-Time Training (TTT), sowohl zur Testzeit (durch Next-Token-Prediction) als auch zur Trainingszeit (durch Meta-Lernen) End-to-End (E2E), im Gegensatz zu früheren Ansätzen. Wir führen umfangreiche Experimente durch mit Fokus auf Skalierungseigenschaften. Insbesondere skaliert bei 3B-Modellen, die mit 164B Tokens trainiert wurden, unsere Methode (TTT-E2E) mit der Kontextlänge auf die gleiche Weise wie ein Transformer mit vollständiger Aufmerksamkeit, während andere, wie Mamba 2 und Gated DeltaNet, dies nicht tun. Ähnlich wie RNNs weist TTT-E2E jedoch eine konstante Inferenzlatenz unabhängig von der Kontextlänge auf, was es für 128K Kontext 2,7-mal schneller als vollständige Aufmerksamkeit macht. Unser Code ist öffentlich verfügbar.

English

We formulate long-context language modeling as a problem in continual learning rather than architecture design. Under this formulation, we only use a standard architecture -- a Transformer with sliding-window attention. However, our model continues learning at test time via next-token prediction on the given context, compressing the context it reads into its weights. In addition, we improve the model's initialization for learning at test time via meta-learning at training time. Overall, our method, a form of Test-Time Training (TTT), is End-to-End (E2E) both at test time (via next-token prediction) and training time (via meta-learning), in contrast to previous forms. We conduct extensive experiments with a focus on scaling properties. In particular, for 3B models trained with 164B tokens, our method (TTT-E2E) scales with context length in the same way as Transformer with full attention, while others, such as Mamba 2 and Gated DeltaNet, do not. However, similar to RNNs, TTT-E2E has constant inference latency regardless of context length, making it 2.7 times faster than full attention for 128K context. Our code is publicly available.

End-to-End-Testzeit-Training für lange Kontexte

End-to-End Test-Time Training for Long Context

papers.abstract

Support