Языковые модели нуждаются во сне: обучение самомодификации и консолидации воспоминаний

Аннотация

За последние несколько десятилетий был достигнут значительный прогресс в разработке алгоритмов машинного обучения: от ранних исследований специализированных мелких моделей до более общих глубоких больших языковых моделей (LLM). Несмотря на многообещающие результаты в задачах, требующих мгновенного прогнозирования или обучения в контексте, существующие модели не обладают способностью к непрерывному обучению и эффективному переносу своих временных контекстных знаний в долгосрочные параметры. Вдохновившись процессом человеческого обучения, мы вводим парадигму «Сна», которая позволяет моделям непрерывно учиться, дистиллировать свои недолговременные хрупкие воспоминания в стабильные долгосрочные знания с помощью повторения и рекурсивно самосовершенствоваться с помощью процесса «Сновидения». Более подробно, сон состоит из двух этапов: (1) Консолидация памяти: восходящий процесс дистилляции, называемый Посевом знаний, при котором воспоминания меньшей по размеру модели дистиллируются в более крупную сеть для обеспечения большей емкости при сохранении знаний. В качестве доказательства концепции мы представляем новый процесс Обобщенной дистилляции для Посева знаний (т.е. комбинацию политико-зависимой дистилляции с имитационным обучением на основе обучения с подкреплением (RL)); (2) Сновидение: фаза самосовершенствования, на которой модель использует RL для генерации учебного плана синтетических данных, чтобы усваивать новые знания и оттачивать существующие способности без участия человека. Наши эксперименты на задачах долгосрочного планирования, непрерывного обучения, инкорпорации знаний и обобщения с малым количеством примеров подтверждают важность этапа сна.

English

The past few decades have witnessed significant advances in the design of machine learning algorithms, from early studies on task-specific shallow models to more general deep Large Language Models (LLMs). Despite showing promising results in tasks that require instant prediction or in-context learning, existing models lack the ability to continually learn and effectively transfer their temporal in-context knowledge to their long-term parameters. Inspired by human learning process, we introduce a ''Sleep'' paradigm that allows the models to continually learn, distill their short-term fragile memories into stable long-term knowledge with replay, and recursively improve themselves with ''Dreaming'' process. In more detail, sleep consists of two stages: (1) Memory Consolidation: an upward distillation process, called Knowledge Seeding, where the memories of a smaller-self are distilled into a larger network to provide more capacity while preserving the knowledge. As a proof of concept, we present a new Generalized Distillation process for {Knowledge Seeding} (i.e., the combination of on-policy distillation with Reinforcement Learning (RL)-based imitation learning); (2) Dreaming: a self-improvement phase, where the model uses RL to generate a curriculum of synthetic data to rehearse new knowledge and refine existing capabilities without human supervision. Our experiments on long-horizon, continual learning, knowledge incorporation, and few-shot generalization tasks support the importance of the sleep stage.