ChatPaper.aiChatPaper

Estratégias de Aprendizado em Contexto Emergem Racionalmente

In-Context Learning Strategies Emerge Rationally

June 21, 2025
Autores: Daniel Wurgaft, Ekdeep Singh Lubana, Core Francisco Park, Hidenori Tanaka, Gautam Reddy, Noah D. Goodman
cs.AI

Resumo

Trabalhos recentes que analisam o aprendizado em contexto (ICL, do inglês *in-context learning*) identificaram um amplo conjunto de estratégias que descrevem o comportamento dos modelos em diferentes condições experimentais. Nosso objetivo é unificar essas descobertas ao questionar por que um modelo aprende essas estratégias distintas em primeiro lugar. Especificamente, partimos da observação de que, quando treinado para aprender uma mistura de tarefas, como é comum na literatura, as estratégias aprendidas por um modelo para realizar ICL podem ser capturadas por uma família de preditores bayesianos: um preditor de memorização, que assume um prior discreto sobre o conjunto de tarefas vistas, e um preditor de generalização, onde o prior corresponde à distribuição subjacente das tarefas. Adotando a lente normativa da análise racional, onde o comportamento de um aprendiz é explicado como uma adaptação ótima aos dados dadas as restrições computacionais, desenvolvemos um framework hierárquico bayesiano que prevê quase perfeitamente as previsões de próximo token de Transformers ao longo do treinamento — sem assumir acesso aos seus pesos. Sob esse framework, o pré-treinamento é visto como um processo de atualização da probabilidade posterior de diferentes estratégias, e o comportamento no momento da inferência como uma média ponderada pelas posteriores das previsões dessas estratégias. Nosso framework se baseia em suposições comuns sobre a dinâmica de aprendizado de redes neurais, que explicitam uma troca entre perda e complexidade entre as estratégias candidatas: além de quão bem uma estratégia explica os dados, a preferência do modelo por implementá-la é ditada por sua complexidade. Isso ajuda a explicar fenômenos bem conhecidos do ICL, ao mesmo tempo que oferece previsões novas: por exemplo, mostramos uma tendência superlinear na escala de tempo para a transição de generalização para memorização à medida que a diversidade de tarefas aumenta. No geral, nosso trabalho avança uma explicação e previsão do ICL fundamentada em trocas entre perda e complexidade das estratégias.
English
Recent work analyzing in-context learning (ICL) has identified a broad set of strategies that describe model behavior in different experimental conditions. We aim to unify these findings by asking why a model learns these disparate strategies in the first place. Specifically, we start with the observation that when trained to learn a mixture of tasks, as is popular in the literature, the strategies learned by a model for performing ICL can be captured by a family of Bayesian predictors: a memorizing predictor, which assumes a discrete prior on the set of seen tasks, and a generalizing predictor, where the prior matches the underlying task distribution. Adopting the normative lens of rational analysis, where a learner's behavior is explained as an optimal adaptation to data given computational constraints, we develop a hierarchical Bayesian framework that almost perfectly predicts Transformer next-token predictions throughout training -- without assuming access to its weights. Under this framework, pretraining is viewed as a process of updating the posterior probability of different strategies, and inference-time behavior as a posterior-weighted average over these strategies' predictions. Our framework draws on common assumptions about neural network learning dynamics, which make explicit a tradeoff between loss and complexity among candidate strategies: beyond how well it explains the data, a model's preference towards implementing a strategy is dictated by its complexity. This helps explain well-known ICL phenomena, while offering novel predictions: e.g., we show a superlinear trend in the timescale for transitioning from generalization to memorization as task diversity increases. Overall, our work advances an explanatory and predictive account of ICL grounded in tradeoffs between strategy loss and complexity.
PDF101June 30, 2025