ChatPaper.aiChatPaper

Especialización después de la Generalización: Hacia la Comprensión del Entrenamiento en Tiempo de Prueba en Modelos Base

Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models

September 29, 2025
Autores: Jonas Hübotter, Patrik Wolf, Alexander Shevchenko, Dennis Jüni, Andreas Krause, Gil Kur
cs.AI

Resumen

Estudios empíricos recientes han explorado la idea de continuar entrenando un modelo durante el tiempo de prueba para una tarea específica, conocido como entrenamiento en tiempo de prueba (TTT, por sus siglas en inglés), y han encontrado que esto produce mejoras significativas en el rendimiento. Sin embargo, existe un entendimiento limitado sobre por qué y cuándo el TTT es efectivo. Explicaciones anteriores se centraron principalmente en la observación de que el TTT puede ser útil cuando se aplica a la adaptación fuera de distribución o se utiliza con datos privilegiados. No obstante, la creciente escala de los modelos fundacionales, con la mayoría de los datos de prueba dentro de la distribución, cuestiona estas explicaciones. En su lugar, proponemos que los modelos fundacionales permanecen globalmente subparametrizados, y que el TTT proporciona un mecanismo para la especialización después de la generalización, enfocando la capacidad en conceptos relevantes para la tarea de prueba. Específicamente, bajo la hipótesis de representación lineal, proponemos un modelo en el que el TTT logra un error de prueba dentro de la distribución sustancialmente menor que el entrenamiento global. Validamos empíricamente las suposiciones clave de nuestro modelo entrenando un autoencoder disperso en ImageNet, mostrando que puntos de datos semánticamente relacionados son explicados por solo unos pocos conceptos compartidos. Finalmente, realizamos estudios de escalabilidad en tareas de imágenes y lenguaje que confirman las implicaciones prácticas de nuestro modelo, identificando los regímenes donde la especialización es más efectiva.
English
Recent empirical studies have explored the idea of continuing to train a model at test-time for a given task, known as test-time training (TTT), and have found it to yield significant performance improvements. However, there is limited understanding of why and when TTT is effective. Earlier explanations mostly focused on the observation that TTT may help when applied to out-of-distribution adaptation or used with privileged data. However, the growing scale of foundation models with most test data being in-distribution questions these explanations. We instead posit that foundation models remain globally underparameterized, with TTT providing a mechanism for specialization after generalization, focusing capacity on concepts relevant to the test task. Specifically, under the linear representation hypothesis, we propose a model in which TTT achieves a substantially smaller in-distribution test error than global training. We empirically validate our model's key assumptions by training a sparse autoencoder on ImageNet, showing that semantically related data points are explained by only a few shared concepts. Finally, we perform scaling studies across image and language tasks that confirm the practical implications of our model, identifying the regimes where specialization is most effective.
PDF01October 1, 2025