Aprendizaje de modelos del mundo POMDP a partir de observaciones con priores de modelo de lenguaje

Resumen

Ya sea navegando por un edificio, operando un robot o jugando un juego, un agente que actúa eficazmente en un entorno debe primero aprender un modelo interno de cómo funciona ese entorno. Los procesos de decisión de Markov parcialmente observables (POMDPs) proporcionan una clase de modelado flexible para dichos modelos internos del mundo, pero aprenderlos únicamente a partir de trayectorias de observación-acción es un desafío y normalmente requiere una interacción extensa con el entorno. Nos preguntamos si las prioridades de los modelos de lenguaje pueden reducir la interacción costosa al aprovechar el conocimiento previo, e introducimos Pinductor (POMDP-inductor): un LLM propone modelos POMDP candidatos a partir de unas pocas trayectorias de observación-acción y los refina iterativamente para optimizar una puntuación de verosimilitud basada en creencias. A pesar de utilizar estrictamente menos información, Pinductor iguala el rendimiento y la eficiencia de muestreo de los métodos de aprendizaje POMDP basados en LLM que asumen acceso privilegiado al estado oculto, mientras supera significativamente la eficiencia de muestreo de las líneas base tabulares de POMDP. Resultados adicionales muestran que el rendimiento escala con la capacidad del LLM y se degrada de forma gradual a medida que se retiene información semántica sobre el entorno. En conjunto, estos resultados posicionan las prioridades de los modelos de lenguaje como una herramienta práctica para el aprendizaje eficiente en muestreo de modelos del mundo bajo observabilidad parcial, y un paso hacia agentes generalistas en entornos del mundo real. El código está disponible en https://github.com/atomresearch/pinductor.

English

Whether navigating a building, operating a robot, or playing a game, an agent that acts effectively in an environment must first learn an internal model of how that environment works. Partially-observable Markov decision processes (POMDPs) provide a flexible modeling class for such internal world models, but learning them from observation-action trajectories alone is challenging and typically requires extensive environment interaction. We ask whether language-model priors can reduce costly interaction by leveraging prior knowledge, and introduce Pinductor (POMDP-inductor): an LLM proposes candidate POMDP models from a few observation-action trajectories and iteratively refines them to optimize a belief-based likelihood score. Despite using strictly less information, Pinductor matches the performance and sample efficiency of LLM-based POMDP learning methods that assume privileged access to the hidden state, while significantly surpassing the sample efficiency of tabular POMDP baselines. Further results show that performance scales with LLM capability and degrades gracefully as semantic information about the environment is withheld. Together, these results position language-model priors as a practical tool for sample-efficient world-model learning under partial observability, and a step toward generalist agents in real-world environments. Code is available at https://github.com/atomresearch/pinductor.