Apprentissage de modèles du monde POMDP à partir d'observations avec des priors de modèle de langage

Résumé

Que ce soit pour naviguer dans un bâtiment, opérer un robot ou jouer à un jeu, un agent agissant efficacement dans un environnement doit d’abord apprendre un modèle interne du fonctionnement de cet environnement. Les processus décisionnels de Markov partiellement observables (POMDP) offrent une classe de modélisation flexible pour de tels modèles internes du monde, mais les apprendre à partir de seules trajectoires d’observation-action est difficile et nécessite généralement des interactions intensives avec l’environnement. Nous nous demandons si des a priori issus de modèles de langage peuvent réduire ces interactions coûteuses en exploitant des connaissances préalables, et introduisons Pinductor (inducteur de POMDP) : un LLM propose des modèles POMDP candidats à partir de quelques trajectoires observation-action et les affine itérativement pour optimiser un score de vraisemblance basé sur les croyances. Bien qu’utilisant strictement moins d’informations, Pinductor atteint des performances et une efficacité d’échantillonnage comparables à celles des méthodes d’apprentissage de POMDP basées sur un LLM qui supposent un accès privilégié à l’état caché, tout en surpassant significativement l’efficacité d’échantillonnage des bases de référence tabulaires pour les POMDP. Des résultats supplémentaires montrent que les performances augmentent avec la capacité du LLM et se dégradent progressivement lorsque les informations sémantiques sur l’environnement sont retenues. Ensemble, ces résultats positionnent les a priori de modèles de langage comme un outil pratique pour un apprentissage efficace en échantillons de modèles du monde sous observabilité partielle, et comme un pas vers des agents généralistes dans des environnements réels. Le code est disponible à l’adresse https://github.com/atomresearch/pinductor.

English

Whether navigating a building, operating a robot, or playing a game, an agent that acts effectively in an environment must first learn an internal model of how that environment works. Partially-observable Markov decision processes (POMDPs) provide a flexible modeling class for such internal world models, but learning them from observation-action trajectories alone is challenging and typically requires extensive environment interaction. We ask whether language-model priors can reduce costly interaction by leveraging prior knowledge, and introduce Pinductor (POMDP-inductor): an LLM proposes candidate POMDP models from a few observation-action trajectories and iteratively refines them to optimize a belief-based likelihood score. Despite using strictly less information, Pinductor matches the performance and sample efficiency of LLM-based POMDP learning methods that assume privileged access to the hidden state, while significantly surpassing the sample efficiency of tabular POMDP baselines. Further results show that performance scales with LLM capability and degrades gracefully as semantic information about the environment is withheld. Together, these results position language-model priors as a practical tool for sample-efficient world-model learning under partial observability, and a step toward generalist agents in real-world environments. Code is available at https://github.com/atomresearch/pinductor.