Träumen in Code für Curriculum-Lernen in offenen Welten

papers.abstract

Offenes Lernen (Open-ended Learning) betrachtet Intelligenz als ein Phänomen, das aus der kontinuierlichen Interaktion mit einem sich ständig erweiternden Raum von Umgebungen entsteht. Obwohl neuere Fortschritte Foundation Models genutzt haben, um programmgesteuert diverse Umgebungen zu generieren, konzentrieren sich diese Ansätze oft auf die Entdeckung isolierter Verhaltensweisen anstatt auf die Orchestrierung einer nachhaltigen Progression. In komplexen, offenen Welten erschwert der große kombinatorische Raum möglicher Herausforderungen es Agenten, Abfolgen von Erfahrungen zu entdecken, die konsistent erlernbar bleiben. Um dies zu adressieren, schlagen wir Dreaming in Code (DiCode) vor, einen Rahmen, in dem Foundation Models ausführbaren Umgebungscode synthetisieren, um den Lernprozess in Richtung steigender Kompetenz zu unterstützen. In DiCode nimmt das "Träumen" die Form der Materialisierung von Code-Varianten der Welt an. Wir implementieren DiCode in Craftax, einem anspruchsvollen, offenen Benchmark, der durch reichhaltige Mechaniken und langfristige Progression gekennzeichnet ist. Empirisch ermöglicht DiCode Agenten, langfristige Fähigkeiten zu erwerben, und erzielt eine 16%ige Verbesserung der mittleren Ausbeute gegenüber der stärksten Baseline sowie nicht-null Erfolge bei späten Kampfaufgaben, bei denen bisherige Methoden versagen. Unsere Ergebnisse legen nahe, dass Umgebungsgestaltung auf Code-Ebene einen praktischen Mechanismus für Curriculum Control bietet, der die Konstruktion intermediärer Umgebungen ermöglicht, die Kompetenzlücken in offenen Welten überbrücken. Projektseite und Quellcode sind verfügbar unter https://konstantinosmitsides.github.io/dreaming-in-code und https://github.com/konstantinosmitsides/dreaming-in-code.

English

Open-ended learning frames intelligence as emerging from continual interaction with an ever-expanding space of environments. While recent advances have utilized foundation models to programmatically generate diverse environments, these approaches often focus on discovering isolated behaviors rather than orchestrating sustained progression. In complex open-ended worlds, the large combinatorial space of possible challenges makes it difficult for agents to discover sequences of experiences that remain consistently learnable. To address this, we propose Dreaming in Code (DiCode), a framework in which foundation models synthesize executable environment code to scaffold learning toward increasing competence. In DiCode, "dreaming" takes the form of materializing code-level variations of the world. We instantiate DiCode in Craftax, a challenging open-ended benchmark characterized by rich mechanics and long-horizon progression. Empirically, DiCode enables agents to acquire long-horizon skills, achieving a 16% improvement in mean return over the strongest baseline and non-zero success on late-game combat tasks where prior methods fail. Our results suggest that code-level environment design provides a practical mechanism for curriculum control, enabling the construction of intermediate environments that bridge competence gaps in open-ended worlds. Project page and source code are available at https://konstantinosmitsides.github.io/dreaming-in-code and https://github.com/konstantinosmitsides/dreaming-in-code.

Träumen in Code für Curriculum-Lernen in offenen Welten

Dreaming in Code for Curriculum Learning in Open-Ended Worlds

papers.abstract

Support