Lernen von POMDP-Weltmodellen aus Beobachtungen mit Sprachmodell-Prioren

Zusammenfassung

Unabhängig davon, ob ein Agent ein Gebäude navigiert, einen Roboter steuert oder ein Spiel spielt – um effektiv in einer Umgebung zu handeln, muss er zunächst ein internes Modell dieser Umgebung erlernen. Teilweise beobachtbare Markov-Entscheidungsprozesse (POMDPs) bieten eine flexible Modellklasse für derartige interne Weltmodelle, doch das Erlernen allein aus Beobachtungs-Aktions-Trajektorien ist anspruchsvoll und erfordert typischerweise umfangreiche Interaktion mit der Umgebung. Wir untersuchen, ob Sprachmodell-Priors durch die Nutzung von Vorwissen kostspielige Interaktionen reduzieren können, und stellen Pinductor (POMDP-Induktor) vor: Ein LLM schlägt aus wenigen Beobachtungs-Aktions-Trajektorien Kandidaten-POMDP-Modelle vor und verfeinert diese iterativ, um einen glaubensbasierten Likelihood-Wert zu optimieren. Obwohl Pinductor mit deutlich weniger Informationen auskommt, erreicht es die gleiche Leistung und Stichprobeneffizienz wie LLM-basierte POMDP-Lernmethoden, die privilegierten Zugriff auf den verborgenen Zustand voraussetzen, und übertrifft die Stichprobeneffizienz von tabellarischen POMDP-Baselines signifikant. Weitere Ergebnisse zeigen, dass die Leistung mit der LLM-Fähigkeit skaliert und abgestuft abnimmt, wenn dem Modell semantische Informationen über die Umgebung vorenthalten werden. Insgesamt positionieren diese Ergebnisse Sprachmodell-Priors als praktisches Werkzeug für stichproben-effizientes Weltmodell-Lernen unter teilweiser Beobachtbarkeit und als einen Schritt hin zu generalistischen Agenten in realen Umgebungen. Der Code ist verfügbar unter https://github.com/atomresearch/pinductor.

English

Whether navigating a building, operating a robot, or playing a game, an agent that acts effectively in an environment must first learn an internal model of how that environment works. Partially-observable Markov decision processes (POMDPs) provide a flexible modeling class for such internal world models, but learning them from observation-action trajectories alone is challenging and typically requires extensive environment interaction. We ask whether language-model priors can reduce costly interaction by leveraging prior knowledge, and introduce Pinductor (POMDP-inductor): an LLM proposes candidate POMDP models from a few observation-action trajectories and iteratively refines them to optimize a belief-based likelihood score. Despite using strictly less information, Pinductor matches the performance and sample efficiency of LLM-based POMDP learning methods that assume privileged access to the hidden state, while significantly surpassing the sample efficiency of tabular POMDP baselines. Further results show that performance scales with LLM capability and degrades gracefully as semantic information about the environment is withheld. Together, these results position language-model priors as a practical tool for sample-efficient world-model learning under partial observability, and a step toward generalist agents in real-world environments. Code is available at https://github.com/atomresearch/pinductor.