Addestramento in Tempo Reale sul Posto

Abstract

Il paradigma statico "addestra poi distribuisci" limita fondamentalmente la capacità dei Large Language Model (LLM) di adattare dinamicamente i propri pesi in risposta ai flussi continui di nuove informazioni intrinsechi ai compiti del mondo reale. Il Test-Time Training (TTT) offre un'alternativa convincente aggiornando un sottoinsieme dei parametri del modello (pesi veloci) durante l'inferenza, tuttavia il suo potenziale nell'attuale ecosistema degli LLM è ostacolato da barriere critiche, tra cui incompatibilità architetturale, inefficienza computazionale e obiettivi dei pesi veloci disallineati per la modellazione linguistica. In questo lavoro, introduciamo In-Place Test-Time Training (In-Place TTT), un framework che conferisce perfettamente agli LLM la capacità di Test-Time Training. In-Place TTT tratta la matrice di proiezione finale degli onnipresenti blocchi MLP come i propri pesi veloci adattabili, consentendo un potenziamento "drop-in" per gli LLM senza costosi riaddestramenti da zero. Inoltre, sostituiamo l'obiettivo generico di ricostruzione del TTT con un obiettivo mirato e teoricamente fondato, esplicitamente allineato con il compito di Next-Token-Prediction che governa la modellazione linguistica autoregressiva. Questo obiettivo principiato, combinato con un efficiente meccanismo di aggiornamento chunk-wise, dà luogo a un algoritmo altamente scalabile e compatibile con il parallelismo contestuale. Esperimenti estensivi convalidano l'efficacia del nostro framework: come potenziamento in-place, consente a un modello da 4B di parametri di ottenere prestazioni superiori su compiti con contesti fino a 128k, e quando preaddestrato da zero, supera costantemente approcci competitivi correlati al TTT. I risultati dello studio di ablazione forniscono ulteriori approfondimenti sulle nostre scelte progettuali. Collettivamente, i nostri risultati stabiliscono In-Place TTT come un passo promettente verso un paradigma di apprendimento continuo negli LLM.

English

The static ``train then deploy" paradigm fundamentally limits Large Language Models (LLMs) from dynamically adapting their weights in response to continuous streams of new information inherent in real-world tasks. Test-Time Training (TTT) offers a compelling alternative by updating a subset of model parameters (fast weights) at inference time, yet its potential in the current LLM ecosystem is hindered by critical barriers including architectural incompatibility, computational inefficiency and misaligned fast weight objectives for language modeling. In this work, we introduce In-Place Test-Time Training (In-Place TTT), a framework that seamlessly endows LLMs with Test-Time Training ability. In-Place TTT treats the final projection matrix of the ubiquitous MLP blocks as its adaptable fast weights, enabling a ``drop-in" enhancement for LLMs without costly retraining from scratch. Furthermore, we replace TTT's generic reconstruction objective with a tailored, theoretically-grounded objective explicitly aligned with the Next-Token-Prediction task governing autoregressive language modeling. This principled objective, combined with an efficient chunk-wise update mechanism, results in a highly scalable algorithm compatible with context parallelism. Extensive experiments validate our framework's effectiveness: as an in-place enhancement, it enables a 4B-parameter model to achieve superior performance on tasks with contexts up to 128k, and when pretrained from scratch, it consistently outperforms competitive TTT-related approaches. Ablation study results further provide deeper insights on our design choices. Collectively, our results establish In-Place TTT as a promising step towards a paradigm of continual learning in LLMs.