Aprendizaje, rápido y lento: Hacia LLMs que se adaptan continuamente

Resumen

Los modelos de lenguaje de gran escala (LLMs) se entrenan para tareas posteriores actualizando sus parámetros (por ejemplo, mediante RL). Sin embargo, actualizar los parámetros les obliga a absorber información específica de la tarea, lo que puede provocar olvido catastrófico y pérdida de plasticidad. Por el contrario, el aprendizaje en contexto con parámetros fijos del LLM puede adaptarse de manera económica y rápida a los requisitos específicos de la tarea (por ejemplo, optimización de indicaciones), pero por sí solo no suele igualar las mejoras de rendimiento que se obtienen al actualizar los parámetros del LLM. No hay una buena razón para restringir el aprendizaje al contexto o a los pesos. Además, es probable que los humanos también aprendan en diferentes escalas temporales (por ejemplo, Sistema 1 frente a Sistema 2). Con este fin, introducimos un marco de aprendizaje rápido-lento para LLMs, con los parámetros del modelo como pesos "lentos" y el contexto optimizado como pesos "rápidos". Estos pesos "rápidos" pueden aprender a partir de retroalimentación textual para absorber la información específica de la tarea, mientras que los pesos lentos pueden permanecer más cerca del modelo base y mantener los comportamientos de razonamiento general. El Entrenamiento Rápido-Lento (FST) es hasta 3 veces más eficiente en términos de muestras que el aprendizaje solo lento (RL) en tareas de razonamiento, al mismo tiempo que alcanza una asíntota de rendimiento consistentemente más alta. Además, los modelos entrenados con FST permanecen más cerca del LLM base (hasta un 70% menos de divergencia KL), lo que resulta en un menor olvido catastrófico en comparación con el entrenamiento con RL. Esta deriva reducida también preserva la plasticidad: después de entrenar en una tarea, los modelos entrenados con FST se adaptan de manera más efectiva a una tarea posterior que los modelos entrenados solo con parámetros. En escenarios de aprendizaje continuo, donde los dominios de las tareas cambian sobre la marcha, FST continúa adquiriendo cada nueva tarea mientras que el RL basado solo en parámetros se estanca.

English

Large language models (LLMs) are trained for downstream tasks by updating their parameters (e.g., via RL). However, updating parameters forces them to absorb task-specific information, which can result in catastrophic forgetting and loss of plasticity. In contrast, in-context learning with fixed LLM parameters can cheaply and rapidly adapt to task-specific requirements (e.g., prompt optimization), but cannot by itself typically match the performance gains available through updating LLM parameters. There is no good reason for restricting learning to being in-context or in-weights. Moreover, humans also likely learn at different time scales (e.g., System 1 vs 2). To this end, we introduce a fast-slow learning framework for LLMs, with model parameters as "slow" weights and optimized context as "fast" weights. These fast "weights" can learn from textual feedback to absorb the task-specific information, while allowing slow weights to stay closer to the base model and persist general reasoning behaviors. Fast-Slow Training (FST) is up to 3x more sample-efficient than only slow learning (RL) across reasoning tasks, while consistently reaching a higher performance asymptote. Moreover, FST-trained models remain closer to the base LLM (up to 70% less KL divergence), resulting in less catastrophic forgetting than RL-training. This reduced drift also preserves plasticity: after training on one task, FST trained models adapt more effectively to a subsequent task than parameter-only trained models. In continual learning scenarios, where task domains change on the fly, FST continues to acquire each new task while parameter-only RL stalls.

Aprendizaje, rápido y lento: Hacia LLMs que se adaptan continuamente

Learning, Fast and Slow: Towards LLMs That Adapt Continually

Resumen

Support