In-Context-Lernstrategien entstehen rational.
In-Context Learning Strategies Emerge Rationally
June 21, 2025
Autoren: Daniel Wurgaft, Ekdeep Singh Lubana, Core Francisco Park, Hidenori Tanaka, Gautam Reddy, Noah D. Goodman
cs.AI
Zusammenfassung
Aktuelle Arbeiten zur Analyse des In-Context-Lernens (ICL) haben eine breite Palette von Strategien identifiziert, die das Modellverhalten unter verschiedenen experimentellen Bedingungen beschreiben. Unser Ziel ist es, diese Erkenntnisse zu vereinheitlichen, indem wir die Frage stellen, warum ein Modell überhaupt diese unterschiedlichen Strategien erlernt. Konkret gehen wir von der Beobachtung aus, dass, wenn ein Modell darauf trainiert wird, eine Mischung von Aufgaben zu lernen – wie es in der Literatur üblich ist – die Strategien, die das Modell für die Durchführung von ICL erlernt, durch eine Familie von Bayes’schen Prädiktoren erfasst werden können: einen memorisierenden Prädiktor, der eine diskrete Prior-Verteilung über die Menge der gesehenen Aufgaben annimmt, und einen generalisierenden Prädiktor, bei dem die Prior-Verteilung der zugrunde liegenden Aufgabenverteilung entspricht. Unter der normativen Perspektive der rationalen Analyse, bei der das Verhalten eines Lernenden als optimale Anpassung an die Daten unter Berücksichtigung von Rechenbeschränkungen erklärt wird, entwickeln wir ein hierarchisches Bayes’sches Rahmenwerk, das die nächsten Token-Vorhersagen von Transformern während des Trainings nahezu perfekt vorhersagt – ohne Zugriff auf dessen Gewichte vorauszusetzen. In diesem Rahmenwerk wird das Vortraining als ein Prozess der Aktualisierung der posteriori Wahrscheinlichkeit verschiedener Strategien betrachtet, und das Verhalten zur Inferenzzeit als ein posteriori-gewichteter Durchschnitt über die Vorhersagen dieser Strategien. Unser Rahmenwerk stützt sich auf gängige Annahmen über die Lern dynamiken neuronaler Netze, die einen Kompromiss zwischen Verlust und Komplexität unter den Kandidatenstrategien explizit machen: Neben der Qualität der Erklärung der Daten wird die Präferenz eines Modells für die Implementierung einer Strategie durch deren Komplexität bestimmt. Dies hilft, bekannte ICL-Phänomene zu erklären, während es gleichzeitig neue Vorhersagen bietet: Zum Beispiel zeigen wir einen superlinearen Trend in der Zeitskala für den Übergang von Generalisierung zu Memorierung, wenn die Aufgabenvielfalt zunimmt. Insgesamt leistet unsere Arbeit einen Beitrag zu einer erklärenden und vorhersagenden Darstellung von ICL, die auf Kompromissen zwischen Strategieverlust und Komplexität basiert.
English
Recent work analyzing in-context learning (ICL) has identified a broad set of
strategies that describe model behavior in different experimental conditions.
We aim to unify these findings by asking why a model learns these disparate
strategies in the first place. Specifically, we start with the observation that
when trained to learn a mixture of tasks, as is popular in the literature, the
strategies learned by a model for performing ICL can be captured by a family of
Bayesian predictors: a memorizing predictor, which assumes a discrete prior on
the set of seen tasks, and a generalizing predictor, where the prior matches
the underlying task distribution. Adopting the normative lens of rational
analysis, where a learner's behavior is explained as an optimal adaptation to
data given computational constraints, we develop a hierarchical Bayesian
framework that almost perfectly predicts Transformer next-token predictions
throughout training -- without assuming access to its weights. Under this
framework, pretraining is viewed as a process of updating the posterior
probability of different strategies, and inference-time behavior as a
posterior-weighted average over these strategies' predictions. Our framework
draws on common assumptions about neural network learning dynamics, which make
explicit a tradeoff between loss and complexity among candidate strategies:
beyond how well it explains the data, a model's preference towards implementing
a strategy is dictated by its complexity. This helps explain well-known ICL
phenomena, while offering novel predictions: e.g., we show a superlinear trend
in the timescale for transitioning from generalization to memorization as task
diversity increases. Overall, our work advances an explanatory and predictive
account of ICL grounded in tradeoffs between strategy loss and complexity.