Spécialisation après généralisation : Vers une compréhension de l'entraînement en temps de test dans les modèles de fondation
Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models
September 29, 2025
papers.authors: Jonas Hübotter, Patrik Wolf, Alexander Shevchenko, Dennis Jüni, Andreas Krause, Gil Kur
cs.AI
papers.abstract
Des études empiriques récentes ont exploré l'idée de continuer à entraîner un modèle au moment du test pour une tâche donnée, connue sous le nom de test-time training (TTT), et ont constaté qu'elle permet d'obtenir des améliorations significatives des performances. Cependant, la compréhension des raisons et des conditions dans lesquelles le TTT est efficace reste limitée. Les explications antérieures se concentraient principalement sur l'observation que le TTT peut être utile lorsqu'il est appliqué à l'adaptation hors distribution ou utilisé avec des données privilégiées. Cependant, l'échelle croissante des modèles de fondation, avec la plupart des données de test étant en distribution, remet en question ces explications. Nous proposons plutôt que les modèles de fondation restent globalement sous-paramétrés, le TTT fournissant un mécanisme de spécialisation après la généralisation, en concentrant la capacité sur les concepts pertinents pour la tâche de test. Plus précisément, sous l'hypothèse de représentation linéaire, nous proposons un modèle dans lequel le TTT atteint une erreur de test en distribution nettement plus faible que l'entraînement global. Nous validons empiriquement les hypothèses clés de notre modèle en entraînant un autoencodeur parcimonieux sur ImageNet, montrant que les points de données sémantiquement liés sont expliqués par seulement quelques concepts partagés. Enfin, nous réalisons des études de mise à l'échelle sur des tâches d'image et de langage qui confirment les implications pratiques de notre modèle, en identifiant les régimes où la spécialisation est la plus efficace.
English
Recent empirical studies have explored the idea of continuing to train a
model at test-time for a given task, known as test-time training (TTT), and
have found it to yield significant performance improvements. However, there is
limited understanding of why and when TTT is effective. Earlier explanations
mostly focused on the observation that TTT may help when applied to
out-of-distribution adaptation or used with privileged data. However, the
growing scale of foundation models with most test data being in-distribution
questions these explanations. We instead posit that foundation models remain
globally underparameterized, with TTT providing a mechanism for specialization
after generalization, focusing capacity on concepts relevant to the test task.
Specifically, under the linear representation hypothesis, we propose a model in
which TTT achieves a substantially smaller in-distribution test error than
global training. We empirically validate our model's key assumptions by
training a sparse autoencoder on ImageNet, showing that semantically related
data points are explained by only a few shared concepts. Finally, we perform
scaling studies across image and language tasks that confirm the practical
implications of our model, identifying the regimes where specialization is most
effective.