Специализация после обобщения: к пониманию обучения во время тестирования в базовых моделях
Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models
September 29, 2025
Авторы: Jonas Hübotter, Patrik Wolf, Alexander Shevchenko, Dennis Jüni, Andreas Krause, Gil Kur
cs.AI
Аннотация
Недавние эмпирические исследования изучили идею продолжения обучения модели во время тестирования для конкретной задачи, известную как обучение во время тестирования (Test-Time Training, TTT), и обнаружили, что это приводит к значительному улучшению производительности. Однако понимание того, почему и когда TTT эффективен, остается ограниченным. Ранние объяснения в основном сосредотачивались на наблюдении, что TTT может быть полезен при адаптации к данным, выходящим за пределы распределения, или при использовании привилегированных данных. Однако растущий масштаб базовых моделей, при котором большинство тестовых данных остаются в пределах распределения, ставит под сомнение эти объяснения. Мы предполагаем, что базовые модели остаются глобально недоопределенными, а TTT предоставляет механизм специализации после обобщения, сосредотачивая ресурсы на концепциях, релевантных тестовой задаче. В частности, в рамках гипотезы линейного представления мы предлагаем модель, в которой TTT достигает существенно меньшей ошибки на тестовых данных в пределах распределения по сравнению с глобальным обучением. Мы эмпирически подтверждаем ключевые предположения нашей модели, обучая разреженный автокодировщик на ImageNet, показывая, что семантически связанные точки данных объясняются лишь несколькими общими концепциями. Наконец, мы проводим масштабные исследования на задачах обработки изображений и текста, которые подтверждают практические последствия нашей модели, выявляя режимы, в которых специализация наиболее эффективна.
English
Recent empirical studies have explored the idea of continuing to train a
model at test-time for a given task, known as test-time training (TTT), and
have found it to yield significant performance improvements. However, there is
limited understanding of why and when TTT is effective. Earlier explanations
mostly focused on the observation that TTT may help when applied to
out-of-distribution adaptation or used with privileged data. However, the
growing scale of foundation models with most test data being in-distribution
questions these explanations. We instead posit that foundation models remain
globally underparameterized, with TTT providing a mechanism for specialization
after generalization, focusing capacity on concepts relevant to the test task.
Specifically, under the linear representation hypothesis, we propose a model in
which TTT achieves a substantially smaller in-distribution test error than
global training. We empirically validate our model's key assumptions by
training a sparse autoencoder on ImageNet, showing that semantically related
data points are explained by only a few shared concepts. Finally, we perform
scaling studies across image and language tasks that confirm the practical
implications of our model, identifying the regimes where specialization is most
effective.