Specialisatie na generalisatie: Naar een beter begrip van testtijd-training in foundationmodellen
Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models
September 29, 2025
Auteurs: Jonas Hübotter, Patrik Wolf, Alexander Shevchenko, Dennis Jüni, Andreas Krause, Gil Kur
cs.AI
Samenvatting
Recente empirische studies hebben het idee onderzocht om een model tijdens de testfase verder te trainen voor een specifieke taak, bekend als test-time training (TTT), en hebben ontdekt dat dit aanzienlijke prestatieverbeteringen oplevert. Er is echter beperkt begrip van waarom en wanneer TTT effectief is. Eerdere verklaringen richtten zich vooral op de observatie dat TTT nuttig kan zijn bij out-of-distribution aanpassing of bij gebruik van geprivilegieerde data. De toenemende schaal van foundation-modellen, waarbij de meeste testdata in-distribution zijn, zet deze verklaringen echter ter discussie. Wij stellen in plaats daarvan dat foundation-modellen globaal ondergeparameteriseerd blijven, waarbij TTT een mechanisme biedt voor specialisatie na generalisatie, waarbij de capaciteit wordt gericht op concepten die relevant zijn voor de testtaak. Specifiek stellen we, onder de hypothese van lineaire representatie, een model voor waarin TTT een aanzienlijk kleinere in-distribution testfout bereikt dan globale training. We valideren de belangrijkste aannames van ons model empirisch door een sparse autoencoder op ImageNet te trainen, waarbij we aantonen dat semantisch gerelateerde datapunten worden verklaard door slechts enkele gedeelde concepten. Ten slotte voeren we schaalstudies uit over beeld- en taal taken die de praktische implicaties van ons model bevestigen, waarbij we de regimes identificeren waarin specialisatie het meest effectief is.
English
Recent empirical studies have explored the idea of continuing to train a
model at test-time for a given task, known as test-time training (TTT), and
have found it to yield significant performance improvements. However, there is
limited understanding of why and when TTT is effective. Earlier explanations
mostly focused on the observation that TTT may help when applied to
out-of-distribution adaptation or used with privileged data. However, the
growing scale of foundation models with most test data being in-distribution
questions these explanations. We instead posit that foundation models remain
globally underparameterized, with TTT providing a mechanism for specialization
after generalization, focusing capacity on concepts relevant to the test task.
Specifically, under the linear representation hypothesis, we propose a model in
which TTT achieves a substantially smaller in-distribution test error than
global training. We empirically validate our model's key assumptions by
training a sparse autoencoder on ImageNet, showing that semantically related
data points are explained by only a few shared concepts. Finally, we perform
scaling studies across image and language tasks that confirm the practical
implications of our model, identifying the regimes where specialization is most
effective.