Dromen in Code voor Curriculum Leren in Open-Einde Werelden

Samenvatting

Open-ended learning beschouwt intelligentie als een emergent verschijnsel dat voortkomt uit continue interactie met een steeds uitdijende ruimte van omgevingen. Hoewel recente ontwikkelingen foundation models gebruiken om programmatisch diverse omgevingen te genereren, richten deze benaderingen zich vaak op het ontdekken van geïsoleerd gedrag in plaats van het orkestreren van voortdurende progressie. In complexe open-ended werelden maakt de grote combinatorische ruimte van mogelijke uitdagingen het moeilijk voor agents om sequenties van ervaringen te ontdekken die consistent leerbaar blijven. Om dit aan te pakken, stellen we Dreaming in Code (DiCode) voor, een raamwerk waarin foundation models uitvoerbare omgevingscode synthetiseren om het leren te ondersteunen richting toenemende competentie. In DiCode neemt "dromen" de vorm aan van het materialiseren van code-niveau variaties van de wereld. We implementeren DiCode in Craftax, een uitdagende open-ended benchmark gekenmerkt door rijke mechanica en langetermijnprogressie. Empirisch gezien stelt DiCode agents in staat langetermijnvaardigheden te verwerven, met een verbetering van 16% in gemiddelde return ten opzichte van de sterkste baseline en niet-nul succespercentages bij late-game gevechtstaken waar eerdere methoden falen. Onze resultaten suggereren dat omgevingsontwerp op codeniveau een praktisch mechanisme biedt voor curriculumcontrole, waardoor de constructie van tussentijdse omgevingen mogelijk wordt die competentiekloof overbruggen in open-ended werelden. De projectpagina en broncode zijn beschikbaar op https://konstantinosmitsides.github.io/dreaming-in-code en https://github.com/konstantinosmitsides/dreaming-in-code.

English

Open-ended learning frames intelligence as emerging from continual interaction with an ever-expanding space of environments. While recent advances have utilized foundation models to programmatically generate diverse environments, these approaches often focus on discovering isolated behaviors rather than orchestrating sustained progression. In complex open-ended worlds, the large combinatorial space of possible challenges makes it difficult for agents to discover sequences of experiences that remain consistently learnable. To address this, we propose Dreaming in Code (DiCode), a framework in which foundation models synthesize executable environment code to scaffold learning toward increasing competence. In DiCode, "dreaming" takes the form of materializing code-level variations of the world. We instantiate DiCode in Craftax, a challenging open-ended benchmark characterized by rich mechanics and long-horizon progression. Empirically, DiCode enables agents to acquire long-horizon skills, achieving a 16% improvement in mean return over the strongest baseline and non-zero success on late-game combat tasks where prior methods fail. Our results suggest that code-level environment design provides a practical mechanism for curriculum control, enabling the construction of intermediate environments that bridge competence gaps in open-ended worlds. Project page and source code are available at https://konstantinosmitsides.github.io/dreaming-in-code and https://github.com/konstantinosmitsides/dreaming-in-code.

Dromen in Code voor Curriculum Leren in Open-Einde Werelden

Dreaming in Code for Curriculum Learning in Open-Ended Worlds

Samenvatting

Support