Apprentissage de bout en bout pendant les tests pour les contextes longs

Résumé

Nous formulons la modélisation linguistique à long contexte comme un problème d'apprentissage continu plutôt que de conception architecturale. Selon cette formulation, nous utilisons uniquement une architecture standard – un Transformer avec attention par fenêtre glissante. Cependant, notre modèle continue d'apprendre au moment du test via la prédiction du token suivant sur le contexte donné, compressant le contexte qu'il lit dans ses poids. De plus, nous améliorons l'initialisation du modèle pour l'apprentissage au moment du test via du méta-apprentissage pendant l'entraînement. Globalement, notre méthode, une forme d'Apprentissage au Moment du Test (TTT), est de bout en bout (E2E) tant au moment du test (via la prédiction du token suivant) qu'à l'entraînement (via le méta-apprentissage), contrairement aux formes précédentes. Nous menons des expériences approfondies en nous concentrant sur les propriétés d'échelle. En particulier, pour des modèles de 3B paramètres entraînés avec 164B tokens, notre méthode (TTT-E2E) s'adapte à la longueur du contexte de la même manière qu'un Transformer avec attention complète, tandis que d'autres, comme Mamba 2 et Gated DeltaNet, ne le font pas. Cependant, similairement aux RNN, TTT-E2E a une latence d'inférence constante quelle que soit la longueur du contexte, le rendant 2,7 fois plus rapide que l'attention complète pour un contexte de 128K tokens. Notre code est publiquement disponible.

English

We formulate long-context language modeling as a problem in continual learning rather than architecture design. Under this formulation, we only use a standard architecture -- a Transformer with sliding-window attention. However, our model continues learning at test time via next-token prediction on the given context, compressing the context it reads into its weights. In addition, we improve the model's initialization for learning at test time via meta-learning at training time. Overall, our method, a form of Test-Time Training (TTT), is End-to-End (E2E) both at test time (via next-token prediction) and training time (via meta-learning), in contrast to previous forms. We conduct extensive experiments with a focus on scaling properties. In particular, for 3B models trained with 164B tokens, our method (TTT-E2E) scales with context length in the same way as Transformer with full attention, while others, such as Mamba 2 and Gated DeltaNet, do not. However, similar to RNNs, TTT-E2E has constant inference latency regardless of context length, making it 2.7 times faster than full attention for 128K context. Our code is publicly available.

Apprentissage de bout en bout pendant les tests pour les contextes longs

End-to-End Test-Time Training for Long Context

Résumé

Support