ChatPaper.aiChatPaper

Las Estrategias de Aprendizaje en Contexto Surgen de Manera Racional

In-Context Learning Strategies Emerge Rationally

June 21, 2025
Autores: Daniel Wurgaft, Ekdeep Singh Lubana, Core Francisco Park, Hidenori Tanaka, Gautam Reddy, Noah D. Goodman
cs.AI

Resumen

Trabajos recientes que analizan el aprendizaje en contexto (ICL, por sus siglas en inglés) han identificado un amplio conjunto de estrategias que describen el comportamiento de los modelos en diferentes condiciones experimentales. Nuestro objetivo es unificar estos hallazgos preguntándonos por qué un modelo aprende estas estrategias dispares en primer lugar. Específicamente, partimos de la observación de que, cuando se entrena para aprender una mezcla de tareas, como es común en la literatura, las estrategias aprendidas por un modelo para realizar ICL pueden ser capturadas por una familia de predictores bayesianos: un predictor memorizador, que asume un previo discreto sobre el conjunto de tareas vistas, y un predictor generalizador, donde el previo coincide con la distribución subyacente de tareas. Adoptando la perspectiva normativa del análisis racional, donde el comportamiento de un aprendiz se explica como una adaptación óptima a los datos dadas las restricciones computacionales, desarrollamos un marco bayesiano jerárquico que predice casi perfectamente las predicciones de siguiente token de los Transformers a lo largo del entrenamiento, sin asumir acceso a sus pesos. Bajo este marco, el preentrenamiento se ve como un proceso de actualización de la probabilidad posterior de diferentes estrategias, y el comportamiento en tiempo de inferencia como un promedio ponderado por la posterior de las predicciones de estas estrategias. Nuestro marco se basa en suposiciones comunes sobre la dinámica de aprendizaje de las redes neuronales, que explicitan una compensación entre pérdida y complejidad entre las estrategias candidatas: más allá de qué tan bien explica los datos, la preferencia de un modelo por implementar una estrategia está dictada por su complejidad. Esto ayuda a explicar fenómenos bien conocidos del ICL, al tiempo que ofrece predicciones novedosas: por ejemplo, mostramos una tendencia superlineal en la escala de tiempo para la transición de la generalización a la memorización a medida que aumenta la diversidad de tareas. En general, nuestro trabajo avanza una explicación y predicción del ICL fundamentada en compensaciones entre la pérdida y la complejidad de las estrategias.
English
Recent work analyzing in-context learning (ICL) has identified a broad set of strategies that describe model behavior in different experimental conditions. We aim to unify these findings by asking why a model learns these disparate strategies in the first place. Specifically, we start with the observation that when trained to learn a mixture of tasks, as is popular in the literature, the strategies learned by a model for performing ICL can be captured by a family of Bayesian predictors: a memorizing predictor, which assumes a discrete prior on the set of seen tasks, and a generalizing predictor, where the prior matches the underlying task distribution. Adopting the normative lens of rational analysis, where a learner's behavior is explained as an optimal adaptation to data given computational constraints, we develop a hierarchical Bayesian framework that almost perfectly predicts Transformer next-token predictions throughout training -- without assuming access to its weights. Under this framework, pretraining is viewed as a process of updating the posterior probability of different strategies, and inference-time behavior as a posterior-weighted average over these strategies' predictions. Our framework draws on common assumptions about neural network learning dynamics, which make explicit a tradeoff between loss and complexity among candidate strategies: beyond how well it explains the data, a model's preference towards implementing a strategy is dictated by its complexity. This helps explain well-known ICL phenomena, while offering novel predictions: e.g., we show a superlinear trend in the timescale for transitioning from generalization to memorization as task diversity increases. Overall, our work advances an explanatory and predictive account of ICL grounded in tradeoffs between strategy loss and complexity.
PDF71June 30, 2025