ChatPaper.aiChatPaper

Обучение подкрепляющим мировым моделям для агентов на основе больших языковых моделей

Reinforcement World Model Learning for LLM-based Agents

February 5, 2026
Авторы: Xiao Yu, Baolin Peng, Ruize Xu, Yelong Shen, Pengcheng He, Suman Nath, Nikhil Singh, Jiangfeng Gao, Zhou Yu
cs.AI

Аннотация

Крупные языковые модели (LLM) демонстрируют высокую производительность в задачах, ориентированных на язык. Однако в агентных сценариях LLM часто испытывают трудности с предсказанием последствий действий и адаптацией к динамике окружения, что подчеркивает необходимость наличия способностей к моделированию мира у агентов на основе LLM. Мы предлагаем Обучение Мировой Модели с Подкреплением (Reinforcement World Model Learning, RWML) — метод самообучения, который строит обусловленные действиями модели мира для агентов на основе LLM на текстовых состояниях, используя вознаграждения, основанные на разрыве между симуляцией и реальностью. Наш метод выравнивает смоделированные следующие состояния, создаваемые моделью, с реально наблюдаемыми следующими состояниями из окружения, поощряя согласованность между внутренними симуляциями мира и фактической динамикой окружения в предварительно обученном пространстве эмбеддингов. В отличие от предсказания следующего токена, которое отдает приоритет точности на уровне токенов (т.е. воспроизведению точных формулировок) над семантической эквивалентностью и может привести к коллапсу модели, наш метод обеспечивает более устойчивый сигнал обучения и, как показано эмпирически, менее подвержен взлому вознаграждений по сравнению с подходом "LLM-как-судья". Мы оцениваем наш метод на ALFWorld и τ^2 Bench и наблюдаем значительное улучшение по сравнению с базовой моделью, несмотря на полностью самоуправляемый характер обучения. В сочетании с вознаграждениями за успешное выполнение задачи наш метод превосходит прямое обучение с подкреплением на вознаграждении за успех задачи на 6.9 и 5.7 пунктов на ALFWorld и τ^2 Bench соответственно, достигая при этом производительности, сопоставимой с обучением на экспертных данных.
English
Large language models (LLMs) have achieved strong performance in language-centric tasks. However, in agentic settings, LLMs often struggle to anticipate action consequences and adapt to environment dynamics, highlighting the need for world-modeling capabilities in LLM-based agents. We propose Reinforcement World Model Learning (RWML), a self-supervised method that learns action-conditioned world models for LLM-based agents on textual states using sim-to-real gap rewards. Our method aligns simulated next states produced by the model with realized next states observed from the environment, encouraging consistency between internal world simulations and actual environment dynamics in a pre-trained embedding space. Unlike next-state token prediction, which prioritizes token-level fidelity (i.e., reproducing exact wording) over semantic equivalence and can lead to model collapse, our method provides a more robust training signal and is empirically less susceptible to reward hacking than LLM-as-a-judge. We evaluate our method on ALFWorld and τ^2 Bench and observe significant gains over the base model, despite being entirely self-supervised. When combined with task-success rewards, our method outperforms direct task-success reward RL by 6.9 and 5.7 points on ALFWorld and τ^2 Bench respectively, while matching the performance of expert-data training.
PDF112February 7, 2026