ChatPaper.aiChatPaper

Стратегии обучения в контексте возникают рационально.

In-Context Learning Strategies Emerge Rationally

June 21, 2025
Авторы: Daniel Wurgaft, Ekdeep Singh Lubana, Core Francisco Park, Hidenori Tanaka, Gautam Reddy, Noah D. Goodman
cs.AI

Аннотация

Недавние исследования, посвященные анализу обучения в контексте (in-context learning, ICL), выявили широкий набор стратегий, описывающих поведение моделей в различных экспериментальных условиях. Мы стремимся объединить эти результаты, задаваясь вопросом, почему модель изначально обучается этим различным стратегиям. В частности, мы начинаем с наблюдения, что при обучении на смеси задач, что является распространенным подходом в литературе, стратегии, усвоенные моделью для выполнения ICL, могут быть описаны семейством байесовских предсказателей: запоминающего предсказателя, который предполагает дискретное априорное распределение на множестве виденных задач, и обобщающего предсказателя, где априорное распределение соответствует базовому распределению задач. Принимая нормативную перспективу рационального анализа, где поведение обучающегося объясняется как оптимальная адаптация к данным с учетом вычислительных ограничений, мы разрабатываем иерархическую байесовскую модель, которая почти идеально предсказывает предсказания следующего токена в Transformer на протяжении всего обучения — без предположения о доступе к его весам. В рамках этой модели предобучение рассматривается как процесс обновления апостериорной вероятности различных стратегий, а поведение на этапе вывода — как взвешенное по апостериорной вероятности среднее предсказаний этих стратегий. Наша модель опирается на общие предположения о динамике обучения нейронных сетей, которые явно выражают компромисс между ошибкой и сложностью среди кандидатных стратегий: помимо того, насколько хорошо стратегия объясняет данные, предпочтение модели к реализации стратегии определяется ее сложностью. Это помогает объяснить известные феномены ICL, одновременно предлагая новые предсказания: например, мы демонстрируем суперлинейный тренд во временной шкале перехода от обобщения к запоминанию по мере увеличения разнообразия задач. В целом, наша работа продвигает объяснительный и предсказательный подход к ICL, основанный на компромиссах между ошибкой стратегии и ее сложностью.
English
Recent work analyzing in-context learning (ICL) has identified a broad set of strategies that describe model behavior in different experimental conditions. We aim to unify these findings by asking why a model learns these disparate strategies in the first place. Specifically, we start with the observation that when trained to learn a mixture of tasks, as is popular in the literature, the strategies learned by a model for performing ICL can be captured by a family of Bayesian predictors: a memorizing predictor, which assumes a discrete prior on the set of seen tasks, and a generalizing predictor, where the prior matches the underlying task distribution. Adopting the normative lens of rational analysis, where a learner's behavior is explained as an optimal adaptation to data given computational constraints, we develop a hierarchical Bayesian framework that almost perfectly predicts Transformer next-token predictions throughout training -- without assuming access to its weights. Under this framework, pretraining is viewed as a process of updating the posterior probability of different strategies, and inference-time behavior as a posterior-weighted average over these strategies' predictions. Our framework draws on common assumptions about neural network learning dynamics, which make explicit a tradeoff between loss and complexity among candidate strategies: beyond how well it explains the data, a model's preference towards implementing a strategy is dictated by its complexity. This helps explain well-known ICL phenomena, while offering novel predictions: e.g., we show a superlinear trend in the timescale for transitioning from generalization to memorization as task diversity increases. Overall, our work advances an explanatory and predictive account of ICL grounded in tradeoffs between strategy loss and complexity.
PDF71June 30, 2025