Leren van POMDP-wereldmodellen uit observaties met taalmodel-priors

Samenvatting

Of we nu een gebouw navigeren, een robot besturen of een spel spelen: een agent die effectief handelt in een omgeving moet eerst een intern model leren van hoe die omgeving werkt. Gedeeltelijk waarneembare Markov-beslissingsprocessen (POMDP's) bieden een flexibele modelleerklasse voor dergelijke interne wereldmodellen, maar het leren ervan op basis van alleen observatie-actie-trajecten is uitdagend en vereist doorgaans uitgebreide interactie met de omgeving. We onderzoeken of taalmodel-priors kostbare interactie kunnen verminderen door gebruik te maken van voorkennis, en introduceren Pinductor (POMDP-inductor): een LLM stelt kandidaat-POMDP-modellen voor op basis van enkele observatie-actie-trajecten en verfijnt deze iteratief om een op overtuiging gebaseerde waarschijnlijkheidsscore te optimaliseren. Ondanks het gebruik van strikt minder informatie evenaart Pinductor de prestaties en steekproefefficiëntie van op LLM gebaseerde POMDP-leermethoden die uitgaan van bevoorrechte toegang tot de verborgen toestand, terwijl het de steekproefefficiëntie van tabulaire POMDP-baselines aanzienlijk overtreft. Verdere resultaten tonen aan dat de prestaties schalen met de LLM-capaciteit en sierlijk afnemen naarmate semantische informatie over de omgeving wordt onthouden. Samen positioneren deze resultaten taalmodel-priors als een praktisch hulpmiddel voor steekproefefficiënt wereldmodel-leren onder gedeeltelijke waarneembaarheid, en een stap richting generalistische agenten in realistische omgevingen. Code is beschikbaar op https://github.com/atomresearch/pinductor.

English

Whether navigating a building, operating a robot, or playing a game, an agent that acts effectively in an environment must first learn an internal model of how that environment works. Partially-observable Markov decision processes (POMDPs) provide a flexible modeling class for such internal world models, but learning them from observation-action trajectories alone is challenging and typically requires extensive environment interaction. We ask whether language-model priors can reduce costly interaction by leveraging prior knowledge, and introduce Pinductor (POMDP-inductor): an LLM proposes candidate POMDP models from a few observation-action trajectories and iteratively refines them to optimize a belief-based likelihood score. Despite using strictly less information, Pinductor matches the performance and sample efficiency of LLM-based POMDP learning methods that assume privileged access to the hidden state, while significantly surpassing the sample efficiency of tabular POMDP baselines. Further results show that performance scales with LLM capability and degrades gracefully as semantic information about the environment is withheld. Together, these results position language-model priors as a practical tool for sample-efficient world-model learning under partial observability, and a step toward generalist agents in real-world environments. Code is available at https://github.com/atomresearch/pinductor.