Modelos de Linguagem Precisam de Sono: Aprendendo a Automodificar e Consolidar Memórias

Resumo

Nas últimas décadas, testemunhamos avanços significativos no projeto de algoritmos de aprendizado de máquina, desde estudos iniciais sobre modelos rasos específicos para tarefas até Grandes Modelos de Linguagem (LLMs) profundos e mais gerais. Embora apresentem resultados promissores em tarefas que exigem predição instantânea ou aprendizado em contexto, os modelos existentes não possuem a capacidade de aprender continuamente e transferir eficazmente seu conhecimento contextual temporal para seus parâmetros de longo prazo. Inspirados pelo processo de aprendizado humano, introduzimos um paradigma "Sono" que permite que os modelos aprendam continuamente, destilem suas memórias frágeis de curto prazo em conhecimento estável de longo prazo por meio de repetição e melhorem recursivamente a si mesmos com um processo de "Sonhar". Mais detalhadamente, o sono consiste em duas etapas: (1) Consolidação da Memória: um processo de destilação ascendente, chamado Semeadura de Conhecimento, onde as memórias de um "eu" menor são destiladas em uma rede maior para fornecer maior capacidade enquanto preserva o conhecimento. Como prova de conceito, apresentamos um novo processo de Destilação Generalizada para Semeadura de Conhecimento (ou seja, a combinação de destilação on-policy com aprendizado por imitação baseado em Aprendizagem por Reforço (RL)); (2) Sonhar: uma fase de autoaperfeiçoamento, na qual o modelo utiliza RL para gerar um currículo de dados sintéticos, ensaiar novos conhecimentos e refinar capacidades existentes sem supervisão humana. Nossos experimentos em tarefas de longo horizonte, aprendizado contínuo, incorporação de conhecimento e generalização com poucos exemplos corroboram a importância da etapa do sono.

English

The past few decades have witnessed significant advances in the design of machine learning algorithms, from early studies on task-specific shallow models to more general deep Large Language Models (LLMs). Despite showing promising results in tasks that require instant prediction or in-context learning, existing models lack the ability to continually learn and effectively transfer their temporal in-context knowledge to their long-term parameters. Inspired by human learning process, we introduce a ''Sleep'' paradigm that allows the models to continually learn, distill their short-term fragile memories into stable long-term knowledge with replay, and recursively improve themselves with ''Dreaming'' process. In more detail, sleep consists of two stages: (1) Memory Consolidation: an upward distillation process, called Knowledge Seeding, where the memories of a smaller-self are distilled into a larger network to provide more capacity while preserving the knowledge. As a proof of concept, we present a new Generalized Distillation process for {Knowledge Seeding} (i.e., the combination of on-policy distillation with Reinforcement Learning (RL)-based imitation learning); (2) Dreaming: a self-improvement phase, where the model uses RL to generate a curriculum of synthetic data to rehearse new knowledge and refine existing capabilities without human supervision. Our experiments on long-horizon, continual learning, knowledge incorporation, and few-shot generalization tasks support the importance of the sleep stage.