Lernen, schnell und langsam: Auf dem Weg zu LLMs, die sich kontinuierlich anpassen

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) werden für nachgelagerte Aufgaben trainiert, indem ihre Parameter aktualisiert werden (z. B. mittels Reinforcement Learning, RL). Die Aktualisierung von Parametern zwingt sie jedoch dazu, aufgabenspezifische Informationen zu absorbieren, was zu katastrophalem Vergessen und einem Verlust an Plastizität führen kann. Im Gegensatz dazu kann In-Context-Lernen mit fixierten LLM-Parametern günstig und schnell an aufgabenspezifische Anforderungen angepasst werden (z. B. Prompt-Optimierung), erreicht aber typischerweise nicht von sich aus die gleichen Leistungssteigerungen wie eine Aktualisierung der LLM-Parameter. Es gibt keinen guten Grund, das Lernen auf In-Context- oder In-Weight-Lernen zu beschränken. Zudem lernen Menschen wahrscheinlich ebenfalls auf unterschiedlichen Zeitskalen (z. B. System 1 vs. 2). Zu diesem Zweck führen wir einen Fast-Slow-Lernrahmen für LLMs ein, bei dem die Modellparameter als "langsame" Gewichte und der optimierte Kontext als "schnelle" Gewichte fungieren. Diese schnellen "Gewichte" können aus textuellem Feedback lernen, um aufgabenspezifische Informationen zu absorbieren, während die langsamen Gewichte näher am Basismodell bleiben und allgemeine Denkfähigkeiten bewahren können. Fast-Slow Training (FST) ist bei Denkaufgaben bis zu dreimal stichprobeneffizienter als reines langsames Lernen (RL) und erreicht durchgängig eine höhere Leistungsasymptote. Zudem bleiben FST-trainierte Modelle näher am Basis-LLM (bis zu 70 % weniger KL-Divergenz), was zu weniger katastrophalem Vergessen führt als RL-Training. Diese reduzierte Drift bewahrt auch die Plastizität: Nach dem Training auf einer Aufgabe passen sich FST-trainierte Modelle effektiver an eine nachfolgende Aufgabe an als rein parameterbasierte Modelle. In kontinuierlichen Lernszenarien, in denen die Aufgabendomänen spontan wechseln, erwirbt FST weiterhin jede neue Aufgabe, während das rein parameterbasierte RL ins Stocken gerät.

English

Large language models (LLMs) are trained for downstream tasks by updating their parameters (e.g., via RL). However, updating parameters forces them to absorb task-specific information, which can result in catastrophic forgetting and loss of plasticity. In contrast, in-context learning with fixed LLM parameters can cheaply and rapidly adapt to task-specific requirements (e.g., prompt optimization), but cannot by itself typically match the performance gains available through updating LLM parameters. There is no good reason for restricting learning to being in-context or in-weights. Moreover, humans also likely learn at different time scales (e.g., System 1 vs 2). To this end, we introduce a fast-slow learning framework for LLMs, with model parameters as "slow" weights and optimized context as "fast" weights. These fast "weights" can learn from textual feedback to absorb the task-specific information, while allowing slow weights to stay closer to the base model and persist general reasoning behaviors. Fast-Slow Training (FST) is up to 3x more sample-efficient than only slow learning (RL) across reasoning tasks, while consistently reaching a higher performance asymptote. Moreover, FST-trained models remain closer to the base LLM (up to 70% less KL divergence), resulting in less catastrophic forgetting than RL-training. This reduced drift also preserves plasticity: after training on one task, FST trained models adapt more effectively to a subsequent task than parameter-only trained models. In continual learning scenarios, where task domains change on the fly, FST continues to acquire each new task while parameter-only RL stalls.

Lernen, schnell und langsam: Auf dem Weg zu LLMs, die sich kontinuierlich anpassen

Learning, Fast and Slow: Towards LLMs That Adapt Continually

Zusammenfassung

Support