Specializzazione dopo la Generalizzazione: Verso la Comprensione dell'Addestramento al Momento del Test nei Modelli di Base
Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models
September 29, 2025
Autori: Jonas Hübotter, Patrik Wolf, Alexander Shevchenko, Dennis Jüni, Andreas Krause, Gil Kur
cs.AI
Abstract
Recenti studi empirici hanno esplorato l'idea di continuare ad addestrare un modello durante il test per un determinato compito, noto come test-time training (TTT), e hanno riscontrato che ciò porta a significativi miglioramenti delle prestazioni. Tuttavia, c'è una comprensione limitata del perché e del quando il TTT sia efficace. Le spiegazioni precedenti si sono concentrate principalmente sull'osservazione che il TTT può essere utile quando applicato all'adattamento fuori distribuzione o utilizzato con dati privilegiati. Tuttavia, la crescente scala dei modelli di base, con la maggior parte dei dati di test che rientrano nella distribuzione, mette in discussione queste spiegazioni. Noi invece ipotizziamo che i modelli di base rimangano globalmente sottoparametrizzati, con il TTT che fornisce un meccanismo per la specializzazione dopo la generalizzazione, concentrando la capacità su concetti rilevanti per il compito di test. Nello specifico, sotto l'ipotesi di rappresentazione lineare, proponiamo un modello in cui il TTT raggiunge un errore di test in distribuzione sostanzialmente inferiore rispetto all'addestramento globale. Convalidiamo empiricamente le ipotesi chiave del nostro modello addestrando un autoencoder sparso su ImageNet, dimostrando che punti di dati semanticamente correlati sono spiegati da pochi concetti condivisi. Infine, conduciamo studi di scalabilità su compiti di immagini e linguaggio che confermano le implicazioni pratiche del nostro modello, identificando i regimi in cui la specializzazione è più efficace.
English
Recent empirical studies have explored the idea of continuing to train a
model at test-time for a given task, known as test-time training (TTT), and
have found it to yield significant performance improvements. However, there is
limited understanding of why and when TTT is effective. Earlier explanations
mostly focused on the observation that TTT may help when applied to
out-of-distribution adaptation or used with privileged data. However, the
growing scale of foundation models with most test data being in-distribution
questions these explanations. We instead posit that foundation models remain
globally underparameterized, with TTT providing a mechanism for specialization
after generalization, focusing capacity on concepts relevant to the test task.
Specifically, under the linear representation hypothesis, we propose a model in
which TTT achieves a substantially smaller in-distribution test error than
global training. We empirically validate our model's key assumptions by
training a sparse autoencoder on ImageNet, showing that semantically related
data points are explained by only a few shared concepts. Finally, we perform
scaling studies across image and language tasks that confirm the practical
implications of our model, identifying the regimes where specialization is most
effective.