Sonhando em Código para Aprendizagem Curricular em Mundos Abertos
Dreaming in Code for Curriculum Learning in Open-Ended Worlds
February 9, 2026
Autores: Konstantinos Mitsides, Maxence Faldor, Antoine Cully
cs.AI
Resumo
A aprendizagem de mundo aberto enquadra a inteligência como emergente da interação contínua com um espaço em constante expansão de ambientes. Embora avanços recentes tenham utilizado modelos de base (foundation models) para gerar ambientes diversos de forma programática, essas abordagens frequentemente focam na descoberta de comportamentos isolados em vez de orquestrar uma progressão sustentada. Em mundos abertos complexos, o grande espaço combinatório de desafios possíveis dificulta que os agentes descubram sequências de experiências que permaneçam consistentemente aprendíveis. Para resolver isso, propomos o Dreaming in Code (DiCode), uma estrutura na qual modelos de base sintetizam código executável de ambiente para estruturar (scaffold) a aprendizagem em direção a uma competência crescente. No DiCode, o "sonhar" assume a forma de materializar variações do mundo a nível de código. Instanciamos o DiCode no Craftax, um benchmark desafiador de mundo aberto caracterizado por mecânicas ricas e progressão de longo horizonte. Empiricamente, o DiCode permite que os agentes adquiram habilidades de longo horizonte, alcançando uma melhoria de 16% no retorno médio em relação à linha de base mais forte e sucesso não nulo em tarefas de combate do final do jogo, onde métodos anteriores falham. Nossos resultados sugerem que o design de ambientes a nível de código fornece um mecanismo prático para o controle curricular, permitindo a construção de ambientes intermediários que preenchem lacunas de competência em mundos abertos. A página do projeto e o código-fonte estão disponíveis em https://konstantinosmitsides.github.io/dreaming-in-code e https://github.com/konstantinosmitsides/dreaming-in-code.
English
Open-ended learning frames intelligence as emerging from continual interaction with an ever-expanding space of environments. While recent advances have utilized foundation models to programmatically generate diverse environments, these approaches often focus on discovering isolated behaviors rather than orchestrating sustained progression. In complex open-ended worlds, the large combinatorial space of possible challenges makes it difficult for agents to discover sequences of experiences that remain consistently learnable. To address this, we propose Dreaming in Code (DiCode), a framework in which foundation models synthesize executable environment code to scaffold learning toward increasing competence. In DiCode, "dreaming" takes the form of materializing code-level variations of the world. We instantiate DiCode in Craftax, a challenging open-ended benchmark characterized by rich mechanics and long-horizon progression. Empirically, DiCode enables agents to acquire long-horizon skills, achieving a 16% improvement in mean return over the strongest baseline and non-zero success on late-game combat tasks where prior methods fail. Our results suggest that code-level environment design provides a practical mechanism for curriculum control, enabling the construction of intermediate environments that bridge competence gaps in open-ended worlds. Project page and source code are available at https://konstantinosmitsides.github.io/dreaming-in-code and https://github.com/konstantinosmitsides/dreaming-in-code.