Spécialisation après généralisation : Vers une compréhension de l'entraînement en temps de test dans les modèles de fondation

papers.abstract

Des études empiriques récentes ont exploré l'idée de continuer à entraîner un modèle au moment du test pour une tâche donnée, connue sous le nom de test-time training (TTT), et ont constaté qu'elle permet d'obtenir des améliorations significatives des performances. Cependant, la compréhension des raisons et des conditions dans lesquelles le TTT est efficace reste limitée. Les explications antérieures se concentraient principalement sur l'observation que le TTT peut être utile lorsqu'il est appliqué à l'adaptation hors distribution ou utilisé avec des données privilégiées. Cependant, l'échelle croissante des modèles de fondation, avec la plupart des données de test étant en distribution, remet en question ces explications. Nous proposons plutôt que les modèles de fondation restent globalement sous-paramétrés, le TTT fournissant un mécanisme de spécialisation après la généralisation, en concentrant la capacité sur les concepts pertinents pour la tâche de test. Plus précisément, sous l'hypothèse de représentation linéaire, nous proposons un modèle dans lequel le TTT atteint une erreur de test en distribution nettement plus faible que l'entraînement global. Nous validons empiriquement les hypothèses clés de notre modèle en entraînant un autoencodeur parcimonieux sur ImageNet, montrant que les points de données sémantiquement liés sont expliqués par seulement quelques concepts partagés. Enfin, nous réalisons des études de mise à l'échelle sur des tâches d'image et de langage qui confirment les implications pratiques de notre modèle, en identifiant les régimes où la spécialisation est la plus efficace.

English

Recent empirical studies have explored the idea of continuing to train a model at test-time for a given task, known as test-time training (TTT), and have found it to yield significant performance improvements. However, there is limited understanding of why and when TTT is effective. Earlier explanations mostly focused on the observation that TTT may help when applied to out-of-distribution adaptation or used with privileged data. However, the growing scale of foundation models with most test data being in-distribution questions these explanations. We instead posit that foundation models remain globally underparameterized, with TTT providing a mechanism for specialization after generalization, focusing capacity on concepts relevant to the test task. Specifically, under the linear representation hypothesis, we propose a model in which TTT achieves a substantially smaller in-distribution test error than global training. We empirically validate our model's key assumptions by training a sparse autoencoder on ImageNet, showing that semantically related data points are explained by only a few shared concepts. Finally, we perform scaling studies across image and language tasks that confirm the practical implications of our model, identifying the regimes where specialization is most effective.

Spécialisation après généralisation : Vers une compréhension de l'entraînement en temps de test dans les modèles de fondation

Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models

papers.abstract

Support