Los modelos de lenguaje necesitan dormir: aprender a auto-modificarse y consolidar recuerdos

Resumen

En las últimas décadas se han producido avances significativos en el diseño de algoritmos de aprendizaje automático, desde los primeros estudios sobre modelos superficiales específicos de tareas hasta modelos profundos más generales, como los Grandes Modelos de Lenguaje (LLMs). A pesar de mostrar resultados prometedores en tareas que requieren predicción instantánea o aprendizaje en contexto, los modelos existentes carecen de la capacidad de aprender de forma continua y transferir eficazmente su conocimiento temporal en contexto a sus parámetros a largo plazo. Inspirados en el proceso de aprendizaje humano, introducimos un paradigma de "Sueño" que permite a los modelos aprender de forma continua, destilar sus recuerdos frágiles a corto plazo en conocimiento estable a largo plazo mediante repetición, y mejorarse recursivamente a través de un proceso de "Soñar". En más detalle, el sueño consta de dos etapas: (1) Consolidación de la Memoria: un proceso de destilación ascendente, llamado Siembra de Conocimiento, donde los recuerdos de un yo más pequeño se destilan en una red más grande para proporcionar mayor capacidad mientras se preserva el conocimiento. Como prueba de concepto, presentamos un nuevo proceso de Destilación Generalizada para la Siembra de Conocimiento (es decir, la combinación de destilación en política con aprendizaje por imitación basado en Aprendizaje por Refuerzo (RL)); (2) Soñar: una fase de auto-mejora, donde el modelo utiliza RL para generar un currículum de datos sintéticos con el fin de ensayar nuevos conocimientos y refinar capacidades existentes sin supervisión humana. Nuestros experimentos en tareas de horizonte largo, aprendizaje continuo, incorporación de conocimiento y generalización con pocos ejemplos respaldan la importancia de la etapa de sueño.

English

The past few decades have witnessed significant advances in the design of machine learning algorithms, from early studies on task-specific shallow models to more general deep Large Language Models (LLMs). Despite showing promising results in tasks that require instant prediction or in-context learning, existing models lack the ability to continually learn and effectively transfer their temporal in-context knowledge to their long-term parameters. Inspired by human learning process, we introduce a ''Sleep'' paradigm that allows the models to continually learn, distill their short-term fragile memories into stable long-term knowledge with replay, and recursively improve themselves with ''Dreaming'' process. In more detail, sleep consists of two stages: (1) Memory Consolidation: an upward distillation process, called Knowledge Seeding, where the memories of a smaller-self are distilled into a larger network to provide more capacity while preserving the knowledge. As a proof of concept, we present a new Generalized Distillation process for {Knowledge Seeding} (i.e., the combination of on-policy distillation with Reinforcement Learning (RL)-based imitation learning); (2) Dreaming: a self-improvement phase, where the model uses RL to generate a curriculum of synthetic data to rehearse new knowledge and refine existing capabilities without human supervision. Our experiments on long-horizon, continual learning, knowledge incorporation, and few-shot generalization tasks support the importance of the sleep stage.