R-WoM: Модель мира с расширением на основе поиска для агентов, работающих с компьютерами
R-WoM: Retrieval-augmented World Model For Computer-use Agents
October 13, 2025
Авторы: Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang
cs.AI
Аннотация
Крупные языковые модели (LLM) могут выступать в роли моделей мира для улучшения принятия решений агентами в цифровых средах, моделируя будущие состояния и предсказывая результаты действий, что потенциально позволяет избежать затратного исследования методом проб и ошибок. Однако эта возможность принципиально ограничена склонностью LLM к галлюцинациям и их зависимостью от статических знаний, полученных в ходе обучения, что может приводить к накоплению ошибок, препятствующих долгосрочному моделированию. Чтобы систематически исследовать, подходят ли LLM для моделирования мира, мы изучаем две ключевые способности моделей мира — предсказание будущих состояний и оценку вознаграждения — с помощью трех задач: идентификация следующего состояния, согласование полного плана процедур и распознавание переходов между ключевыми этапами. Наш анализ показывает, что хотя LLM эффективно определяют ближайшие следующие состояния и распознают значимые переходы, их производительность быстро снижается при планировании полных процедур. Это подчеркивает ограничения LLM в надежном моделировании динамики среды на длительных горизонтах. Чтобы устранить эти ограничения, мы предлагаем Retrieval-augmented World Model (R-WoM), которая дополняет моделирование LLM актуальными фактами, извлеченными из внешних руководств. Эксперименты показывают, что R-WoM достигает значительного улучшения до 25,3% (OSWorld) и 18,1% (WebArena) по сравнению с базовыми методами, особенно в симуляциях с длительными горизонтами.
English
Large Language Models (LLMs) can serve as world models to enhance agent
decision-making in digital environments by simulating future states and
predicting action outcomes, potentially eliminating costly trial-and-error
exploration. However, this capability is fundamentally limited by LLMs'
tendency toward hallucination and their reliance on static training knowledge,
which can lead to compounding errors that inhibit long-horizon simulations. To
systematically investigate whether LLMs are appropriate for world modeling, we
probe two core capabilities of world models--future state prediction and reward
estimation--through three tasks: next-state identification, full-procedure
planning alignment, and milestone transition recognition. Our analysis shows
that while LLMs effectively capture immediate next states and identify
meaningful state transitions, their performance rapidly degrades in
full-procedure planning. This highlights LLMs' limitations in reliably modeling
environment dynamics over long horizons. To address these limitations, we
propose the Retrieval-augmented World Model (R-WoM), which grounds LLM
simulations by incorporating factual, up-to-date knowledge retrieved from
external tutorials. Experiments show that R-WoM achieves substantial
improvements of up to 25.3% (OSWorld) and 18.1% (WebArena) compared to
baselines, with particular advantages in longer-horizon simulations.