Een Leven om te Leren: Het Afleiden van Symbolische Wereldmodellen voor Stochastische Omgevingen uit Ongestuurde Verkenning
One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration
October 14, 2025
Auteurs: Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
cs.AI
Samenvatting
Symbolische wereldmodellering vereist het afleiden en representeren van de overgangsdynamiek van een omgeving als een uitvoerbaar programma. Eerder werk richtte zich voornamelijk op grotendeels deterministische omgevingen met overvloedige interactiedata, eenvoudige mechanica en menselijke begeleiding. Wij richten ons op een realistischer en uitdagender scenario: leren in een complexe, stochastische omgeving waar de agent slechts "één leven" heeft om een vijandige omgeving te verkennen zonder menselijke begeleiding. Wij introduceren OneLife, een raamwerk dat werelddynamiek modelleert via conditioneel geactiveerde programmatische wetten binnen een probabilistisch programmeerkader. Elke wet werkt via een voorwaarde-effectstructuur en activeert in relevante wereldtoestanden. Dit creëert een dynamisch rekeningsgraaf dat inferentie en optimalisatie alleen door relevante wetten routeert, waardoor schaalbaarheidsuitdagingen worden vermeden wanneer alle wetten bijdragen aan voorspellingen over een complexe, hiërarchische toestand, en het leren van stochastische dynamiek mogelijk maakt, zelfs bij schaarse regelactivatie. Om onze aanpak onder deze veeleisende beperkingen te evalueren, introduceren we een nieuw evaluatieprotocol dat meet (a) toestandsrangschikking, het vermogen om plausibele toekomstige toestanden van onwaarschijnlijke te onderscheiden, en (b) toestandsgetrouwheid, het vermogen om toekomstige toestanden te genereren die sterk op de werkelijkheid lijken. We ontwikkelen en evalueren ons raamwerk op Crafter-OO, onze herimplementatie van de Crafter-omgeving die een gestructureerde, objectgeoriënteerde symbolische toestand blootlegt en een pure overgangsfunctie die alleen op die toestand werkt. OneLife kan succesvol belangrijke omgevingsdynamiek leren uit minimale, onbegeleide interactie, en presteert beter dan een sterke baseline in 16 van de 23 geteste scenario's. We testen ook het planningsvermogen van OneLife, waarbij gesimuleerde rollouts succesvol superieure strategieën identificeren. Ons werk legt een basis voor het autonoom construeren van programmatische wereldmodellen van onbekende, complexe omgevingen.
English
Symbolic world modeling requires inferring and representing an environment's
transitional dynamics as an executable program. Prior work has focused on
largely deterministic environments with abundant interaction data, simple
mechanics, and human guidance. We address a more realistic and challenging
setting, learning in a complex, stochastic environment where the agent has only
"one life" to explore a hostile environment without human guidance. We
introduce OneLife, a framework that models world dynamics through
conditionally-activated programmatic laws within a probabilistic programming
framework. Each law operates through a precondition-effect structure,
activating in relevant world states. This creates a dynamic computation graph
that routes inference and optimization only through relevant laws, avoiding
scaling challenges when all laws contribute to predictions about a complex,
hierarchical state, and enabling the learning of stochastic dynamics even with
sparse rule activation. To evaluate our approach under these demanding
constraints, we introduce a new evaluation protocol that measures (a) state
ranking, the ability to distinguish plausible future states from implausible
ones, and (b) state fidelity, the ability to generate future states that
closely resemble reality. We develop and evaluate our framework on Crafter-OO,
our reimplementation of the Crafter environment that exposes a structured,
object-oriented symbolic state and a pure transition function that operates on
that state alone. OneLife can successfully learn key environment dynamics from
minimal, unguided interaction, outperforming a strong baseline on 16 out of 23
scenarios tested. We also test OneLife's planning ability, with simulated
rollouts successfully identifying superior strategies. Our work establishes a
foundation for autonomously constructing programmatic world models of unknown,
complex environments.