Especialização após Generalização: Rumo à Compreensão do Treinamento em Tempo de Teste em Modelos de Base
Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models
September 29, 2025
Autores: Jonas Hübotter, Patrik Wolf, Alexander Shevchenko, Dennis Jüni, Andreas Krause, Gil Kur
cs.AI
Resumo
Estudos empíricos recentes exploraram a ideia de continuar treinando um modelo durante o teste para uma determinada tarefa, conhecida como treinamento durante o teste (TTT, do inglês "test-time training"), e descobriram que isso resulta em melhorias significativas de desempenho. No entanto, há uma compreensão limitada sobre por que e quando o TTT é eficaz. Explicações anteriores concentravam-se principalmente na observação de que o TTT pode ser útil quando aplicado à adaptação fora da distribuição ou usado com dados privilegiados. No entanto, a escala crescente dos modelos de base (foundation models), com a maioria dos dados de teste estando dentro da distribuição, questiona essas explicações. Em vez disso, propomos que os modelos de base permanecem globalmente subparametrizados, com o TTT fornecendo um mecanismo para especialização após a generalização, concentrando a capacidade em conceitos relevantes para a tarefa de teste. Especificamente, sob a hipótese de representação linear, propomos um modelo no qual o TTT alcança um erro de teste dentro da distribuição substancialmente menor do que o treinamento global. Validamos empiricamente as principais suposições do nosso modelo treinando um autoencoder esparso no ImageNet, mostrando que pontos de dados semanticamente relacionados são explicados por apenas alguns conceitos compartilhados. Por fim, realizamos estudos de escalonamento em tarefas de imagem e linguagem que confirmam as implicações práticas do nosso modelo, identificando os regimes onde a especialização é mais eficaz.
English
Recent empirical studies have explored the idea of continuing to train a
model at test-time for a given task, known as test-time training (TTT), and
have found it to yield significant performance improvements. However, there is
limited understanding of why and when TTT is effective. Earlier explanations
mostly focused on the observation that TTT may help when applied to
out-of-distribution adaptation or used with privileged data. However, the
growing scale of foundation models with most test data being in-distribution
questions these explanations. We instead posit that foundation models remain
globally underparameterized, with TTT providing a mechanism for specialization
after generalization, focusing capacity on concepts relevant to the test task.
Specifically, under the linear representation hypothesis, we propose a model in
which TTT achieves a substantially smaller in-distribution test error than
global training. We empirically validate our model's key assumptions by
training a sparse autoencoder on ImageNet, showing that semantically related
data points are explained by only a few shared concepts. Finally, we perform
scaling studies across image and language tasks that confirm the practical
implications of our model, identifying the regimes where specialization is most
effective.