Программирование во сне для обучения по учебному плану в открытых мирах
Dreaming in Code for Curriculum Learning in Open-Ended Worlds
February 9, 2026
Авторы: Konstantinos Mitsides, Maxence Faldor, Antoine Cully
cs.AI
Аннотация
Открытое обучение рассматривает интеллект как результат постоянного взаимодействия с постоянно расширяющимся пространством сред. Хотя последние достижения используют базовые модели для программного генерирования разнообразных сред, эти подходы часто сосредоточены на открытии изолированных поведений, а не на организации устойчивой прогрессии. В сложных открытых мирах большое комбинаторное пространство возможных задач затрудняет для агентов обнаружение последовательностей опыта, которые остаются стабильно обучаемыми. Чтобы решить эту проблему, мы предлагаем Dreaming in Code (DiCode) — фреймворк, в котором базовые модели синтезируют исполняемый код среды для создания каркаса обучения, направленного на повышение компетентности. В DiCode «сновидение» принимает форму материализации вариаций мира на уровне кода. Мы реализуем DiCode в Craftax, сложном открытом бенчмарке, характеризующемся богатой механикой и долгосрочной прогрессией. Экспериментально DiCode позволяет агентам приобретать долгосрочные навыки, демонстрируя улучшение среднего результата на 16% по сравнению с сильнейшим базовым методом и ненулевой успех в боевых задачах поздней стадии игры, где предыдущие методы терпят неудачу. Наши результаты позволяют предположить, что проектирование среды на уровне кода предоставляет практический механизм управления учебным планом, позволяя создавать промежуточные среды, которые преодолевают разрывы в компетентности в открытых мирах. Страница проекта и исходный код доступны по адресам https://konstantinosmitsides.github.io/dreaming-in-code и https://github.com/konstantinosmitsides/dreaming-in-code.
English
Open-ended learning frames intelligence as emerging from continual interaction with an ever-expanding space of environments. While recent advances have utilized foundation models to programmatically generate diverse environments, these approaches often focus on discovering isolated behaviors rather than orchestrating sustained progression. In complex open-ended worlds, the large combinatorial space of possible challenges makes it difficult for agents to discover sequences of experiences that remain consistently learnable. To address this, we propose Dreaming in Code (DiCode), a framework in which foundation models synthesize executable environment code to scaffold learning toward increasing competence. In DiCode, "dreaming" takes the form of materializing code-level variations of the world. We instantiate DiCode in Craftax, a challenging open-ended benchmark characterized by rich mechanics and long-horizon progression. Empirically, DiCode enables agents to acquire long-horizon skills, achieving a 16% improvement in mean return over the strongest baseline and non-zero success on late-game combat tasks where prior methods fail. Our results suggest that code-level environment design provides a practical mechanism for curriculum control, enabling the construction of intermediate environments that bridge competence gaps in open-ended worlds. Project page and source code are available at https://konstantinosmitsides.github.io/dreaming-in-code and https://github.com/konstantinosmitsides/dreaming-in-code.