Rêver en code pour l'apprentissage curriculaire dans des mondes ouverts

papers.abstract

L'apprentissage ouvert conçoit l'intelligence comme émergeant d'une interaction continue avec un espace d'environnements en expansion constante. Bien que des progrès récents aient utilisé des modèles de fondation pour générer de manière programmatique des environnements diversifiés, ces approches se concentrent souvent sur la découverte de comportements isolés plutôt que sur l'orchestration d'une progression soutenue. Dans les mondes ouverts complexes, le vaste espace combinatoire des défis possibles rend difficile pour les agents la découverte de séquences d'expériences qui restent constamment assimilables. Pour y remédier, nous proposons Dreaming in Code (DiCode), un cadre dans lequel les modèles de fondation synthétisent du code d'environnement exécutable pour échafauder l'apprentissage vers une compétence croissante. Dans DiCode, le « rêve » prend la forme d'une matérialisation de variations du monde au niveau du code. Nous instancions DiCode dans Craftax, un benchmark ouvert exigeant caractérisé par une mécanique riche et une progression à long terme. Empiriquement, DiCode permet aux agents d'acquérir des compétences à long terme, obtenant une amélioration de 16% du retour moyen par rapport au meilleur système de référence et un succès non nul sur des tâches de combat en fin de jeu où les méthodes précédentes échouent. Nos résultats suggèrent que la conception d'environnements au niveau du code fournit un mécanisme pratique pour le contrôle du curriculum, permettant la construction d'environnements intermédiaires qui comblent les écarts de compétence dans les mondes ouverts. La page du projet et le code source sont disponibles sur https://konstantinosmitsides.github.io/dreaming-in-code et https://github.com/konstantinosmitsides/dreaming-in-code.

English

Open-ended learning frames intelligence as emerging from continual interaction with an ever-expanding space of environments. While recent advances have utilized foundation models to programmatically generate diverse environments, these approaches often focus on discovering isolated behaviors rather than orchestrating sustained progression. In complex open-ended worlds, the large combinatorial space of possible challenges makes it difficult for agents to discover sequences of experiences that remain consistently learnable. To address this, we propose Dreaming in Code (DiCode), a framework in which foundation models synthesize executable environment code to scaffold learning toward increasing competence. In DiCode, "dreaming" takes the form of materializing code-level variations of the world. We instantiate DiCode in Craftax, a challenging open-ended benchmark characterized by rich mechanics and long-horizon progression. Empirically, DiCode enables agents to acquire long-horizon skills, achieving a 16% improvement in mean return over the strongest baseline and non-zero success on late-game combat tasks where prior methods fail. Our results suggest that code-level environment design provides a practical mechanism for curriculum control, enabling the construction of intermediate environments that bridge competence gaps in open-ended worlds. Project page and source code are available at https://konstantinosmitsides.github.io/dreaming-in-code and https://github.com/konstantinosmitsides/dreaming-in-code.

Rêver en code pour l'apprentissage curriculaire dans des mondes ouverts

Dreaming in Code for Curriculum Learning in Open-Ended Worlds

papers.abstract

Support