ChatPaper.aiChatPaper

Ein Leben zum Lernen: Ableitung symbolischer Weltmodelle für stochastische Umgebungen aus ungeleiteter Exploration

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

October 14, 2025
papers.authors: Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
cs.AI

papers.abstract

Die Modellierung einer symbolischen Welt erfordert das Ableiten und Darstellen der Übergangsdynamik einer Umgebung als ausführbares Programm. Bisherige Arbeiten konzentrierten sich weitgehend auf deterministische Umgebungen mit reichlich Interaktionsdaten, einfachen Mechaniken und menschlicher Anleitung. Wir behandeln eine realistischere und herausforderndere Situation, in der ein Agent in einer komplexen, stochastischen Umgebung lernt, in der er nur „ein Leben“ hat, um eine feindliche Umgebung ohne menschliche Anleitung zu erkunden. Wir stellen OneLife vor, ein Framework, das die Dynamik der Welt durch bedingt aktivierte programmatische Gesetze innerhalb eines probabilistischen Programmierframeworks modelliert. Jedes Gesetz operiert über eine Struktur aus Vorbedingung und Wirkung und wird in relevanten Weltzuständen aktiviert. Dadurch entsteht ein dynamischer Berechnungsgraph, der Inferenz und Optimierung nur über relevante Gesetze leitet, wodurch Skalierungsprobleme vermieden werden, wenn alle Gesetze zu Vorhersagen über einen komplexen, hierarchischen Zustand beitragen, und das Lernen stochastischer Dynamik auch bei spärlicher Regelaktivierung ermöglicht wird. Um unseren Ansatz unter diesen anspruchsvollen Bedingungen zu bewerten, führen wir ein neues Bewertungsprotokoll ein, das (a) die Zustandsrangfolge, die Fähigkeit, plausible zukünftige Zustände von unplausiblen zu unterscheiden, und (b) die Zustandstreue, die Fähigkeit, zukünftige Zustände zu erzeugen, die der Realität sehr nahekommen, misst. Wir entwickeln und bewerten unser Framework auf Crafter-OO, unserer Neuimplementierung der Crafter-Umgebung, die einen strukturierten, objektorientierten symbolischen Zustand und eine reine Übergangsfunktion offenlegt, die ausschließlich auf diesem Zustand operiert. OneLife kann erfolgreich Schlüsseldynamiken der Umgebung aus minimaler, ungeleiteter Interaktion lernen und übertrifft eine starke Baseline in 16 von 23 getesteten Szenarien. Wir testen auch die Planungsfähigkeit von OneLife, wobei simulierte Rollouts erfolgreich überlegene Strategien identifizieren. Unsere Arbeit legt eine Grundlage für die autonome Konstruktion programmatischer Weltmodelle unbekannter, komplexer Umgebungen.
English
Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.
PDF42October 15, 2025