Aprendendo Modelos de Mundo POMDP a partir de Observações com Priores de Modelos de Linguagem

Resumo

Quer seja navegando em um edifício, operando um robô ou jogando um jogo, um agente que atua efetivamente em um ambiente deve primeiro aprender um modelo interno de como esse ambiente funciona. Processos de Decisão de Markov Parcialmente Observáveis (POMDPs) fornecem uma classe de modelagem flexível para tais modelos de mundo interno, mas aprendê-los apenas a partir de trajetórias de observação-ação é desafiador e tipicamente requer extensa interação com o ambiente. Investigamos se priores de modelos de linguagem podem reduzir a interação custosa ao aproveitar conhecimento prévio e introduzimos o Pinductor (POMDP-inductor): um LLM propõe modelos candidatos de POMDP a partir de algumas trajetórias de observação-ação e os refina iterativamente para otimizar uma pontuação de verossimilhança baseada em crença. Apesar de usar estritamente menos informação, o Pinductor iguala o desempenho e a eficiência amostral de métodos de aprendizado de POMDP baseados em LLM que assumem acesso privilegiado ao estado oculto, enquanto supera significativamente a eficiência amostral de baselines tabulares de POMDP. Resultados adicionais mostram que o desempenho escala com a capacidade do LLM e se degrada de forma gradual à medida que informações semânticas sobre o ambiente são omitidas. Em conjunto, esses resultados posicionam os priores de modelos de linguagem como uma ferramenta prática para o aprendizado eficiente de modelos de mundo sob observabilidade parcial e um passo em direção a agentes generalistas em ambientes do mundo real. O código está disponível em https://github.com/atomresearch/pinductor.

English

Whether navigating a building, operating a robot, or playing a game, an agent that acts effectively in an environment must first learn an internal model of how that environment works. Partially-observable Markov decision processes (POMDPs) provide a flexible modeling class for such internal world models, but learning them from observation-action trajectories alone is challenging and typically requires extensive environment interaction. We ask whether language-model priors can reduce costly interaction by leveraging prior knowledge, and introduce Pinductor (POMDP-inductor): an LLM proposes candidate POMDP models from a few observation-action trajectories and iteratively refines them to optimize a belief-based likelihood score. Despite using strictly less information, Pinductor matches the performance and sample efficiency of LLM-based POMDP learning methods that assume privileged access to the hidden state, while significantly surpassing the sample efficiency of tabular POMDP baselines. Further results show that performance scales with LLM capability and degrades gracefully as semantic information about the environment is withheld. Together, these results position language-model priors as a practical tool for sample-efficient world-model learning under partial observability, and a step toward generalist agents in real-world environments. Code is available at https://github.com/atomresearch/pinductor.