言語モデル事前分布を用いた観測からのPOMDP世界モデルの学習
Learning POMDP World Models from Observations with Language-Model Priors
May 13, 2026
著者: Valentin Six, Frederik Panse, Mathis Fajeau, Lancelot Da Costa, Mridul Sharma, Alfonso Amayuelas, Tim Z. Xiao, David Hyland, Philipp Hennig, Bernhard Schölkopf
cs.AI
要旨
建物内をナビゲートする場合でも、ロボットを操作する場合でも、ゲームをプレイする場合でも、環境内で効果的に行動するエージェントは、まずその環境がどのように機能するかについての内部モデルを学習する必要がある。部分観測マルコフ決定過程(POMDP)は、そのような内部世界モデルのための柔軟なモデリングクラスを提供するが、観測-行動系列のみから学習することは困難であり、通常は広範な環境相互作用を必要とする。我々は、言語モデルの事前知識を活用することで、コストのかかる相互作用を削減できるかどうかを問い、Pinductor(POMDP-inductor)を導入する:LLMが少数の観測-行動系列から候補となるPOMDPモデルを提案し、信念に基づく尤度スコアを最適化するために反復的に洗練する。厳密に少ない情報を使用しているにもかかわらず、Pinductorは隠れ状態への特権的なアクセスを仮定するLLMベースのPOMDP学習手法と同等の性能とサンプル効率を達成し、表形式のPOMDPベースラインのサンプル効率を大幅に上回る。さらなる結果は、性能がLLMの能力に応じてスケールし、環境に関する意味情報が withheld されると優雅に劣化することを示している。これらの結果は、部分観測下でのサンプル効率的な世界モデル学習のための実用的なツールとして言語モデルの事前知識を位置づけ、実世界環境における汎用エージェントへの一歩となる。コードはhttps://github.com/atomresearch/pinductorで公開されている。
English
Whether navigating a building, operating a robot, or playing a game, an agent that acts effectively in an environment must first learn an internal model of how that environment works. Partially-observable Markov decision processes (POMDPs) provide a flexible modeling class for such internal world models, but learning them from observation-action trajectories alone is challenging and typically requires extensive environment interaction. We ask whether language-model priors can reduce costly interaction by leveraging prior knowledge, and introduce Pinductor (POMDP-inductor): an LLM proposes candidate POMDP models from a few observation-action trajectories and iteratively refines them to optimize a belief-based likelihood score. Despite using strictly less information, Pinductor matches the performance and sample efficiency of LLM-based POMDP learning methods that assume privileged access to the hidden state, while significantly surpassing the sample efficiency of tabular POMDP baselines. Further results show that performance scales with LLM capability and degrades gracefully as semantic information about the environment is withheld. Together, these results position language-model priors as a practical tool for sample-efficient world-model learning under partial observability, and a step toward generalist agents in real-world environments. Code is available at https://github.com/atomresearch/pinductor.