Apprentissage en temps de test sur place

Résumé

Le paradigme statique « entraînement puis déploiement » limite fondamentalement la capacité des grands modèles de langage (LLM) à adapter dynamiquement leurs poids en réponse aux flux continus de nouvelles informations inhérents aux tâches du monde réel. L’apprentissage en phase de test (Test-Time Training, TTT) offre une alternative convaincante en mettant à jour un sous-ensemble de paramètres du modèle (poids rapides) lors de l’inférence, mais son potentiel dans l’écosystème actuel des LLM est entravé par des obstacles critiques, notamment l’incompatibilité architecturale, l’inefficacité computationnelle et des objectifs de poids rapides non alignés avec la modélisation du langage. Dans ce travail, nous présentons l’apprentissage en phase de test sur place (In-Place TTT), un cadre qui dote de manière transparente les LLM de la capacité d’apprentissage en phase de test. In-Place TTT utilise la matrice de projection finale des blocs MLP omniprésents comme poids rapides adaptables, permettant une amélioration « prête à l’emploi » pour les LLM sans réentraînement coûteux depuis zéro. De plus, nous remplaçons l’objectif générique de reconstruction de TTT par un objectif sur mesure et théoriquement fondé, explicitement aligné avec la tâche de prédiction du token suivant qui régit la modélisation autoregressive du langage. Cet objectif principiel, combiné à un mécanisme de mise à jour efficace par blocs, donne lieu à un algorithme hautement scalable compatible avec le parallélisme de contexte. Des expériences approfondies valident l’efficacité de notre cadre : en tant qu’amélioration sur place, il permet à un modèle de 4 milliards de paramètres d’atteindre des performances supérieures sur des tâches avec des contextes allant jusqu’à 128k, et lorsqu’il est pré-entraîné depuis zéro, il surpasse constamment les approches concurrentes liées au TTT. Les résultats de l’étude d’ablation fournissent en outre un aperçu plus profond de nos choix de conception. Collectivement, nos résultats établissent In-Place TTT comme une étape prometteuse vers un paradigme d’apprentissage continu dans les LLM.

English

The static ``train then deploy" paradigm fundamentally limits Large Language Models (LLMs) from dynamically adapting their weights in response to continuous streams of new information inherent in real-world tasks. Test-Time Training (TTT) offers a compelling alternative by updating a subset of model parameters (fast weights) at inference time, yet its potential in the current LLM ecosystem is hindered by critical barriers including architectural incompatibility, computational inefficiency and misaligned fast weight objectives for language modeling. In this work, we introduce In-Place Test-Time Training (In-Place TTT), a framework that seamlessly endows LLMs with Test-Time Training ability. In-Place TTT treats the final projection matrix of the ubiquitous MLP blocks as its adaptable fast weights, enabling a ``drop-in" enhancement for LLMs without costly retraining from scratch. Furthermore, we replace TTT's generic reconstruction objective with a tailored, theoretically-grounded objective explicitly aligned with the Next-Token-Prediction task governing autoregressive language modeling. This principled objective, combined with an efficient chunk-wise update mechanism, results in a highly scalable algorithm compatible with context parallelism. Extensive experiments validate our framework's effectiveness: as an in-place enhancement, it enables a 4B-parameter model to achieve superior performance on tasks with contexts up to 128k, and when pretrained from scratch, it consistently outperforms competitive TTT-related approaches. Ablation study results further provide deeper insights on our design choices. Collectively, our results establish In-Place TTT as a promising step towards a paradigm of continual learning in LLMs.