ChatPaper.aiChatPaper

Una Vita per Imparare: Inferire Modelli Simbolici del Mondo per Ambienti Stocastici dall'Esplorazione Non Guidata

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

October 14, 2025
Autori: Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
cs.AI

Abstract

La modellazione simbolica del mondo richiede l'inferenza e la rappresentazione delle dinamiche transizionali di un ambiente come un programma eseguibile. I lavori precedenti si sono concentrati principalmente su ambienti largamente deterministici con abbondanti dati di interazione, meccaniche semplici e guida umana. Affrontiamo un contesto più realistico e impegnativo, apprendendo in un ambiente complesso e stocastico in cui l'agente ha solo "una vita" per esplorare un ambiente ostile senza guida umana. Introduciamo OneLife, un framework che modella le dinamiche del mondo attraverso leggi programmatiche attivate condizionalmente all'interno di un framework di programmazione probabilistica. Ogni legge opera attraverso una struttura precondizione-effetto, attivandosi negli stati del mondo rilevanti. Questo crea un grafo computazionale dinamico che indirizza l'inferenza e l'ottimizzazione solo attraverso le leggi pertinenti, evitando problemi di scalabilità quando tutte le leggi contribuiscono alle previsioni su uno stato complesso e gerarchico, e consentendo l'apprendimento di dinamiche stocastiche anche con un'attivazione sporadica delle regole. Per valutare il nostro approccio sotto questi vincoli impegnativi, introduciamo un nuovo protocollo di valutazione che misura (a) il ranking degli stati, la capacità di distinguere stati futuri plausibili da quelli implausibili, e (b) la fedeltà degli stati, la capacità di generare stati futuri che assomigliano strettamente alla realtà. Sviluppiamo e valutiamo il nostro framework su Crafter-OO, la nostra reimplementazione dell'ambiente Crafter che espone uno stato simbolico strutturato e orientato agli oggetti e una funzione di transizione pura che opera solo su quello stato. OneLife è in grado di apprendere con successo le dinamiche chiave dell'ambiente da un'interazione minima e non guidata, superando una baseline solida in 16 su 23 scenari testati. Testiamo anche la capacità di pianificazione di OneLife, con simulazioni che identificano con successo strategie superiori. Il nostro lavoro getta le basi per la costruzione autonoma di modelli programmatici del mondo di ambienti sconosciuti e complessi.
English
Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.
PDF42October 15, 2025