ChatPaper.aiChatPaper

Специализация после обобщения: к пониманию обучения во время тестирования в базовых моделях

Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models

September 29, 2025
Авторы: Jonas Hübotter, Patrik Wolf, Alexander Shevchenko, Dennis Jüni, Andreas Krause, Gil Kur
cs.AI

Аннотация

Недавние эмпирические исследования изучили идею продолжения обучения модели во время тестирования для конкретной задачи, известную как обучение во время тестирования (Test-Time Training, TTT), и обнаружили, что это приводит к значительному улучшению производительности. Однако понимание того, почему и когда TTT эффективен, остается ограниченным. Ранние объяснения в основном сосредотачивались на наблюдении, что TTT может быть полезен при адаптации к данным, выходящим за пределы распределения, или при использовании привилегированных данных. Однако растущий масштаб базовых моделей, при котором большинство тестовых данных остаются в пределах распределения, ставит под сомнение эти объяснения. Мы предполагаем, что базовые модели остаются глобально недоопределенными, а TTT предоставляет механизм специализации после обобщения, сосредотачивая ресурсы на концепциях, релевантных тестовой задаче. В частности, в рамках гипотезы линейного представления мы предлагаем модель, в которой TTT достигает существенно меньшей ошибки на тестовых данных в пределах распределения по сравнению с глобальным обучением. Мы эмпирически подтверждаем ключевые предположения нашей модели, обучая разреженный автокодировщик на ImageNet, показывая, что семантически связанные точки данных объясняются лишь несколькими общими концепциями. Наконец, мы проводим масштабные исследования на задачах обработки изображений и текста, которые подтверждают практические последствия нашей модели, выявляя режимы, в которых специализация наиболее эффективна.
English
Recent empirical studies have explored the idea of continuing to train a model at test-time for a given task, known as test-time training (TTT), and have found it to yield significant performance improvements. However, there is limited understanding of why and when TTT is effective. Earlier explanations mostly focused on the observation that TTT may help when applied to out-of-distribution adaptation or used with privileged data. However, the growing scale of foundation models with most test data being in-distribution questions these explanations. We instead posit that foundation models remain globally underparameterized, with TTT providing a mechanism for specialization after generalization, focusing capacity on concepts relevant to the test task. Specifically, under the linear representation hypothesis, we propose a model in which TTT achieves a substantially smaller in-distribution test error than global training. We empirically validate our model's key assumptions by training a sparse autoencoder on ImageNet, showing that semantically related data points are explained by only a few shared concepts. Finally, we perform scaling studies across image and language tasks that confirm the practical implications of our model, identifying the regimes where specialization is most effective.
PDF01October 1, 2025