In-Place-Testzeit-Training

Zusammenfassung

Das statische „Train-then-Deploy“-Paradigma schränkt Large Language Models (LLMs) grundlegend darin ein, ihre Gewichte dynamisch an kontinuierliche Ströme neuer Informationen anzupassen, die realen Aufgaben inhärent sind. Test-Time Training (TTT) bietet eine überzeugende Alternative, indem eine Teilmenge der Modellparameter (schnelle Gewichte) zur Inferenzzeit aktualisiert wird. Dennoch wird sein Potenzial im aktuellen LLM-Ökosystem durch kritische Hindernisse eingeschränkt, darunter architektonische Inkompatibilität, rechnerische Ineffizienz und nicht auf die Sprachmodellierung abgestimmte Ziele für die schnellen Gewichte. In dieser Arbeit stellen wir In-Place Test-Time Training (In-Place TTT) vor, ein Framework, das LLMs nahtlos mit Test-Time Training-Fähigkeit ausstattet. In-Place TTT behandelt die finale Projektionsmatrix der allgegenwärtigen MLP-Blöcke als anpassbare schnelle Gewichte und ermöglicht so eine „Drop-in“-Verbesserung für LLMs ohne kostspieliges Neutraining von Grund auf. Des Weiteren ersetzen wir das generische Rekonstruktionsziel von TTT durch ein maßgeschneidertes, theoretisch fundiertes Ziel, das explizit auf die Next-Token-Prediction-Aufgabe ausgerichtet ist, die die autoregressive Sprachmodellierung steuert. Dieses prinzipiengeleitete Ziel, kombiniert mit einem effizienten chunk-basierten Aktualisierungsmechanismus, resultiert in einem hochskalierbaren Algorithmus, der mit Kontextparallelität kompatibel ist. Umfangreiche Experimente validieren die Wirksamkeit unseres Frameworks: Als In-Place-Verbesserung ermöglicht es einem 4-Milliarden-Parameter-Modell, überlegene Leistung bei Aufgaben mit Kontexten bis zu 128k zu erzielen, und bei Pretraining von Grund auf übertrifft es konsistent wettbewerbsfähige TTT-bezogene Ansätze. Ergebnisse der Ablationsstudie liefern zudem tiefere Einblicke in unsere Designentscheidungen. Insgesamt etablieren unsere Ergebnisse In-Place TTT als einen vielversprechenden Schritt hin zu einem Paradigma des kontinuierlichen Lernens in LLMs.

English

The static ``train then deploy" paradigm fundamentally limits Large Language Models (LLMs) from dynamically adapting their weights in response to continuous streams of new information inherent in real-world tasks. Test-Time Training (TTT) offers a compelling alternative by updating a subset of model parameters (fast weights) at inference time, yet its potential in the current LLM ecosystem is hindered by critical barriers including architectural incompatibility, computational inefficiency and misaligned fast weight objectives for language modeling. In this work, we introduce In-Place Test-Time Training (In-Place TTT), a framework that seamlessly endows LLMs with Test-Time Training ability. In-Place TTT treats the final projection matrix of the ubiquitous MLP blocks as its adaptable fast weights, enabling a ``drop-in" enhancement for LLMs without costly retraining from scratch. Furthermore, we replace TTT's generic reconstruction objective with a tailored, theoretically-grounded objective explicitly aligned with the Next-Token-Prediction task governing autoregressive language modeling. This principled objective, combined with an efficient chunk-wise update mechanism, results in a highly scalable algorithm compatible with context parallelism. Extensive experiments validate our framework's effectiveness: as an in-place enhancement, it enables a 4B-parameter model to achieve superior performance on tasks with contexts up to 128k, and when pretrained from scratch, it consistently outperforms competitive TTT-related approaches. Ablation study results further provide deeper insights on our design choices. Collectively, our results establish In-Place TTT as a promising step towards a paradigm of continual learning in LLMs.