Apprendre, vite et lentement : vers des LLM qui s'adaptent continuellement

Résumé

Les grands modèles de langage (LLM) sont entraînés pour des tâches en aval en mettant à jour leurs paramètres (par exemple via l'apprentissage par renforcement). Cependant, la mise à jour des paramètres les oblige à absorber des informations spécifiques à la tâche, ce qui peut entraîner un oubli catastrophique et une perte de plasticité. En revanche, l'apprentissage en contexte avec des paramètres de LLM fixes permet de s'adapter de manière peu coûteuse et rapide aux exigences spécifiques d'une tâche (par exemple, l'optimisation des invites), mais ne peut généralement pas atteindre à lui seul les gains de performance obtenus en mettant à jour les paramètres du LLM. Il n'y a pas de bonne raison de limiter l'apprentissage au contexte ou aux poids. De plus, les humains apprennent probablement aussi à différentes échelles de temps (par exemple, Système 1 vs 2). À cette fin, nous introduisons un cadre d'apprentissage rapide-lent pour les LLM, où les paramètres du modèle constituent les poids « lents » et le contexte optimisé les poids « rapides ». Ces poids rapides peuvent apprendre à partir de retours textuels pour absorber les informations spécifiques à la tâche, tout en permettant aux poids lents de rester plus proches du modèle de base et de conserver des comportements de raisonnement généraux. L'Entraînement Rapide-Lent (FST) est jusqu'à 3 fois plus efficace en termes d'échantillons que l'apprentissage lent seul (apprentissage par renforcement) sur des tâches de raisonnement, tout en atteignant systématiquement une asymptote de performance plus élevée. De plus, les modèles entraînés avec FST restent plus proches du LLM de base (jusqu'à 70 % de divergence KL en moins), ce qui entraîne moins d'oubli catastrophique que l'entraînement par renforcement. Cette dérive réduite préserve également la plasticité : après un entraînement sur une tâche, les modèles entraînés avec FST s'adaptent plus efficacement à une tâche ultérieure que les modèles entraînés uniquement sur les paramètres. Dans les scénarios d'apprentissage continu, où les domaines de tâches changent à la volée, FST continue d'acquérir chaque nouvelle tâche tandis que l'apprentissage par renforcement basé uniquement sur les paramètres stagne.

English

Large language models (LLMs) are trained for downstream tasks by updating their parameters (e.g., via RL). However, updating parameters forces them to absorb task-specific information, which can result in catastrophic forgetting and loss of plasticity. In contrast, in-context learning with fixed LLM parameters can cheaply and rapidly adapt to task-specific requirements (e.g., prompt optimization), but cannot by itself typically match the performance gains available through updating LLM parameters. There is no good reason for restricting learning to being in-context or in-weights. Moreover, humans also likely learn at different time scales (e.g., System 1 vs 2). To this end, we introduce a fast-slow learning framework for LLMs, with model parameters as "slow" weights and optimized context as "fast" weights. These fast "weights" can learn from textual feedback to absorb the task-specific information, while allowing slow weights to stay closer to the base model and persist general reasoning behaviors. Fast-Slow Training (FST) is up to 3x more sample-efficient than only slow learning (RL) across reasoning tasks, while consistently reaching a higher performance asymptote. Moreover, FST-trained models remain closer to the base LLM (up to 70% less KL divergence), resulting in less catastrophic forgetting than RL-training. This reduced drift also preserves plasticity: after training on one task, FST trained models adapt more effectively to a subsequent task than parameter-only trained models. In continual learning scenarios, where task domains change on the fly, FST continues to acquire each new task while parameter-only RL stalls.

Apprendre, vite et lentement : vers des LLM qui s'adaptent continuellement

Learning, Fast and Slow: Towards LLMs That Adapt Continually

Résumé

Support