ChatPaper.aiChatPaper

Spezialisierung nach Generalisierung: Zum Verständnis des Testzeit-Trainings in Foundation-Modellen

Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models

September 29, 2025
papers.authors: Jonas Hübotter, Patrik Wolf, Alexander Shevchenko, Dennis Jüni, Andreas Krause, Gil Kur
cs.AI

papers.abstract

Aktuelle empirische Studien haben die Idee untersucht, ein Modell während der Testphase für eine gegebene Aufgabe weiter zu trainieren, bekannt als Test-Time Training (TTT), und haben festgestellt, dass dies zu erheblichen Leistungsverbesserungen führt. Es gibt jedoch nur begrenztes Verständnis darüber, warum und wann TTT effektiv ist. Frühere Erklärungen konzentrierten sich hauptsächlich auf die Beobachtung, dass TTT bei der Anpassung an Out-of-Distribution-Daten oder bei der Verwendung privilegierter Daten hilfreich sein kann. Die zunehmende Skalierung von Foundation-Modellen, bei denen die meisten Testdaten In-Distribution sind, stellt diese Erklärungen jedoch in Frage. Stattdessen postulieren wir, dass Foundation-Modelle global unterparametrisiert bleiben, wobei TTT einen Mechanismus zur Spezialisierung nach der Generalisierung bietet, der die Kapazität auf für die Testaufgabe relevante Konzepte konzentriert. Insbesondere unter der Hypothese der linearen Repräsentation schlagen wir ein Modell vor, in dem TTT einen deutlich geringeren In-Distribution-Testfehler als globales Training erreicht. Wir validieren die Schlüsselannahmen unseres Modells empirisch, indem wir ein sparsames Autoencoder-Modell auf ImageNet trainieren und zeigen, dass semantisch verwandte Datenpunkte nur durch wenige gemeinsame Konzepte erklärt werden. Schließlich führen wir Skalierungsstudien über Bild- und Sprachaufgaben durch, die die praktischen Implikationen unseres Modells bestätigen und die Bereiche identifizieren, in denen Spezialisierung am effektivsten ist.
English
Recent empirical studies have explored the idea of continuing to train a model at test-time for a given task, known as test-time training (TTT), and have found it to yield significant performance improvements. However, there is limited understanding of why and when TTT is effective. Earlier explanations mostly focused on the observation that TTT may help when applied to out-of-distribution adaptation or used with privileged data. However, the growing scale of foundation models with most test data being in-distribution questions these explanations. We instead posit that foundation models remain globally underparameterized, with TTT providing a mechanism for specialization after generalization, focusing capacity on concepts relevant to the test task. Specifically, under the linear representation hypothesis, we propose a model in which TTT achieves a substantially smaller in-distribution test error than global training. We empirically validate our model's key assumptions by training a sparse autoencoder on ImageNet, showing that semantically related data points are explained by only a few shared concepts. Finally, we perform scaling studies across image and language tasks that confirm the practical implications of our model, identifying the regimes where specialization is most effective.
PDF01October 1, 2025