Обучение POMDP-моделей мира по наблюдениям с априорными распределениями языковых моделей

Аннотация

Будь то навигация в здании, управление роботом или игра, агент, эффективно действующий в среде, должен сначала усвоить внутреннюю модель того, как эта среда работает. Частично наблюдаемые марковские процессы принятия решений (POMDP) предоставляют гибкий класс моделирования для таких внутренних мировых моделей, однако их обучение только на основе траекторий наблюдений и действий является сложной задачей и обычно требует обширного взаимодействия со средой. Мы задаемся вопросом, могут ли априорные представления языковых моделей снизить затраты на такое взаимодействие за счет использования предварительных знаний, и представляем Pinductor (POMDP-индуктор): LLM предлагает кандидатные POMDP-модели на основе нескольких траекторий наблюдений и действий и итеративно уточняет их для оптимизации оценки правдоподобия на основе убеждений. Несмотря на использование строго меньшего объема информации, Pinductor достигает производительности и эффективности использования выборок, сопоставимых с методами обучения POMDP на основе LLM, которые предполагают привилегированный доступ к скрытому состоянию, при этом значительно превосходя табличные базовые методы POMDP по эффективности использования выборок. Дальнейшие результаты показывают, что производительность масштабируется с возможностями LLM и плавно ухудшается при сокрытии семантической информации о среде. В совокупности эти результаты позиционируют априорные представления языковых моделей как практический инструмент для эффективного обучения мировых моделей в условиях частичной наблюдаемости и как шаг к созданию агентов общего назначения в реальных средах. Код доступен по адресу https://github.com/atomresearch/pinductor.

English

Whether navigating a building, operating a robot, or playing a game, an agent that acts effectively in an environment must first learn an internal model of how that environment works. Partially-observable Markov decision processes (POMDPs) provide a flexible modeling class for such internal world models, but learning them from observation-action trajectories alone is challenging and typically requires extensive environment interaction. We ask whether language-model priors can reduce costly interaction by leveraging prior knowledge, and introduce Pinductor (POMDP-inductor): an LLM proposes candidate POMDP models from a few observation-action trajectories and iteratively refines them to optimize a belief-based likelihood score. Despite using strictly less information, Pinductor matches the performance and sample efficiency of LLM-based POMDP learning methods that assume privileged access to the hidden state, while significantly surpassing the sample efficiency of tabular POMDP baselines. Further results show that performance scales with LLM capability and degrades gracefully as semantic information about the environment is withheld. Together, these results position language-model priors as a practical tool for sample-efficient world-model learning under partial observability, and a step toward generalist agents in real-world environments. Code is available at https://github.com/atomresearch/pinductor.