ChatPaper.aiChatPaper

단일 생애 학습: 무지도 탐색을 통해 확률적 환경의 상징적 세계 모델 추론

One Life to Learn: Inferring Symbolic World Models for Stochastic Environments from Unguided Exploration

October 14, 2025
저자: Zaid Khan, Archiki Prasad, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
cs.AI

초록

상징적 세계 모델링은 환경의 전이 역학을 실행 가능한 프로그램으로 추론하고 표현하는 것을 요구한다. 기존 연구는 주로 풍부한 상호작용 데이터, 단순한 메커니즘, 그리고 인간의 지도가 있는 결정론적 환경에 초점을 맞추었다. 우리는 더 현실적이고 도전적인 설정, 즉 복잡하고 확률적인 환경에서 인간의 지도 없이 적대적인 환경을 탐험할 수 있는 "단 한 번의 기회"만을 가진 에이전트의 학습 문제를 다룬다. 우리는 OneLife를 소개하는데, 이는 확률적 프로그래밍 프레임워크 내에서 조건부로 활성화되는 프로그램적 법칙을 통해 세계 역학을 모델링하는 프레임워크이다. 각 법칙은 전제조건-효과 구조를 통해 작동하며, 관련된 세계 상태에서 활성화된다. 이는 복잡하고 계층적인 상태에 대한 예측에 모든 법칙이 기여할 때 발생하는 확장성 문제를 피하고, 희소한 규칙 활성화에서도 확률적 역학을 학습할 수 있도록 하는 동적 계산 그래프를 생성한다. 이러한 까다로운 제약 하에서 우리의 접근법을 평가하기 위해, 우리는 (a) 상태 순위, 즉 가능한 미래 상태와 불가능한 미래 상태를 구별하는 능력, 그리고 (b) 상태 충실도, 즉 현실과 유사한 미래 상태를 생성하는 능력을 측정하는 새로운 평가 프로토콜을 도입한다. 우리는 Crafter-OO에서 우리의 프레임워크를 개발하고 평가하는데, 이는 구조화된 객체 지향적 상징적 상태와 그 상태만을 대상으로 작동하는 순수 전이 함수를 노출시키는 Crafter 환경의 재구현이다. OneLife는 최소한의, 지도 없는 상호작용에서도 주요 환경 역학을 성공적으로 학습할 수 있으며, 테스트된 23개 시나리오 중 16개에서 강력한 베이스라인을 능가한다. 또한 우리는 OneLife의 계획 능력을 테스트했으며, 시뮬레이션 롤아웃을 통해 우수한 전략을 성공적으로 식별했다. 우리의 작업은 알려지지 않은 복잡한 환경에 대한 프로그램적 세계 모델을 자율적으로 구축하는 기반을 마련한다.
English
Symbolic world modeling requires inferring and representing an environment's transitional dynamics as an executable program. Prior work has focused on largely deterministic environments with abundant interaction data, simple mechanics, and human guidance. We address a more realistic and challenging setting, learning in a complex, stochastic environment where the agent has only "one life" to explore a hostile environment without human guidance. We introduce OneLife, a framework that models world dynamics through conditionally-activated programmatic laws within a probabilistic programming framework. Each law operates through a precondition-effect structure, activating in relevant world states. This creates a dynamic computation graph that routes inference and optimization only through relevant laws, avoiding scaling challenges when all laws contribute to predictions about a complex, hierarchical state, and enabling the learning of stochastic dynamics even with sparse rule activation. To evaluate our approach under these demanding constraints, we introduce a new evaluation protocol that measures (a) state ranking, the ability to distinguish plausible future states from implausible ones, and (b) state fidelity, the ability to generate future states that closely resemble reality. We develop and evaluate our framework on Crafter-OO, our reimplementation of the Crafter environment that exposes a structured, object-oriented symbolic state and a pure transition function that operates on that state alone. OneLife can successfully learn key environment dynamics from minimal, unguided interaction, outperforming a strong baseline on 16 out of 23 scenarios tested. We also test OneLife's planning ability, with simulated rollouts successfully identifying superior strategies. Our work establishes a foundation for autonomously constructing programmatic world models of unknown, complex environments.
PDF42October 15, 2025