Обучение: быстрое и медленное — на пути к LLM с непрерывной адаптацией

Аннотация

Большие языковые модели (LLM) обучаются для решения последующих задач путем обновления своих параметров (например, с помощью RL). Однако обновление параметров вынуждает их усваивать специфичную для задачи информацию, что может приводить к катастрофическому забыванию и потере пластичности. Напротив, обучение в контексте с фиксированными параметрами LLM позволяет дешево и быстро адаптироваться к требованиям конкретной задачи (например, оптимизация подсказок), но само по себе обычно не может сравниться с приростом производительности, достигаемым за счет обновления параметров LLM. Нет веских причин ограничивать обучение исключительно контекстным или весовым режимом. Более того, люди, вероятно, тоже обучаются на разных временных масштабах (например, Система 1 и 2). В связи с этим мы представляем быструю-медленную структуру обучения для LLM, где параметры модели выступают в роли «медленных» весов, а оптимизированный контекст — в роли «быстрых» весов. Эти быстрые «веса» могут учиться на текстовой обратной связи, чтобы усваивать специфичную для задачи информацию, одновременно позволяя медленным весам оставаться ближе к базовой модели и сохранять общие рассужденческие способности. Быстро-медленное обучение (FST) оказывается до 3 раз более эффективным по выборкам, чем только медленное обучение (RL), на задачах рассуждения, при этом последовательно достигая более высокой асимптоты производительности. Кроме того, модели, обученные с помощью FST, остаются ближе к базовой LLM (до 70% меньшего расхождения KL), что приводит к меньшему катастрофическому забыванию по сравнению с обучением на основе RL. Этот сниженный дрейф также сохраняет пластичность: после обучения на одной задаче модели, обученные с помощью FST, адаптируются к последующей задаче более эффективно, чем модели, обученные только с помощью обновления параметров. В сценариях непрерывного обучения, где области задач меняются на лету, FST продолжает осваивать каждую новую задачу, тогда как RL, основанное только на параметрах, застревает.

English

Large language models (LLMs) are trained for downstream tasks by updating their parameters (e.g., via RL). However, updating parameters forces them to absorb task-specific information, which can result in catastrophic forgetting and loss of plasticity. In contrast, in-context learning with fixed LLM parameters can cheaply and rapidly adapt to task-specific requirements (e.g., prompt optimization), but cannot by itself typically match the performance gains available through updating LLM parameters. There is no good reason for restricting learning to being in-context or in-weights. Moreover, humans also likely learn at different time scales (e.g., System 1 vs 2). To this end, we introduce a fast-slow learning framework for LLMs, with model parameters as "slow" weights and optimized context as "fast" weights. These fast "weights" can learn from textual feedback to absorb the task-specific information, while allowing slow weights to stay closer to the base model and persist general reasoning behaviors. Fast-Slow Training (FST) is up to 3x more sample-efficient than only slow learning (RL) across reasoning tasks, while consistently reaching a higher performance asymptote. Moreover, FST-trained models remain closer to the base LLM (up to 70% less KL divergence), resulting in less catastrophic forgetting than RL-training. This reduced drift also preserves plasticity: after training on one task, FST trained models adapt more effectively to a subsequent task than parameter-only trained models. In continual learning scenarios, where task domains change on the fly, FST continues to acquire each new task while parameter-only RL stalls.

Обучение: быстрое и медленное — на пути к LLM с непрерывной адаптацией

Learning, Fast and Slow: Towards LLMs That Adapt Continually

Аннотация

Support