R-WoM: コンピュータ利用エージェントのための検索拡張型世界モデル
R-WoM: Retrieval-augmented World Model For Computer-use Agents
October 13, 2025
著者: Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang
cs.AI
要旨
大規模言語モデル(LLMs)は、将来の状態をシミュレートし、行動の結果を予測することで、デジタル環境におけるエージェントの意思決定を強化するための世界モデルとして機能し得る。これにより、コストのかかる試行錯誤的な探索を排除する可能性がある。しかし、この能力は、LLMsが幻覚を起こしやすい傾向や、静的な訓練知識に依存する性質によって根本的に制限されており、長期的なシミュレーションを阻害する誤差の累積を引き起こす可能性がある。LLMsが世界モデリングに適しているかどうかを体系的に調査するため、我々は世界モデルの2つの核心的な能力――将来の状態予測と報酬推定――を、次の3つのタスクを通じて探る:次の状態の識別、全手順の計画整合、マイルストーン遷移の認識。分析の結果、LLMsは直近の次の状態を効果的に捉え、意味のある状態遷移を識別するものの、全手順の計画においては性能が急速に低下することが明らかとなった。これは、LLMsが長期的な環境ダイナミクスを信頼性高くモデル化する能力に限界があることを示している。これらの限界を克服するため、我々は外部のチュートリアルから取得した事実に基づく最新の知識を組み込むことでLLMシミュレーションを基盤化する「検索拡張型世界モデル(R-WoM)」を提案する。実験の結果、R-WoMはベースラインと比較して最大25.3%(OSWorld)および18.1%(WebArena)の大幅な改善を達成し、特に長期的なシミュレーションにおいて優位性を示した。
English
Large Language Models (LLMs) can serve as world models to enhance agent
decision-making in digital environments by simulating future states and
predicting action outcomes, potentially eliminating costly trial-and-error
exploration. However, this capability is fundamentally limited by LLMs'
tendency toward hallucination and their reliance on static training knowledge,
which can lead to compounding errors that inhibit long-horizon simulations. To
systematically investigate whether LLMs are appropriate for world modeling, we
probe two core capabilities of world models--future state prediction and reward
estimation--through three tasks: next-state identification, full-procedure
planning alignment, and milestone transition recognition. Our analysis shows
that while LLMs effectively capture immediate next states and identify
meaningful state transitions, their performance rapidly degrades in
full-procedure planning. This highlights LLMs' limitations in reliably modeling
environment dynamics over long horizons. To address these limitations, we
propose the Retrieval-augmented World Model (R-WoM), which grounds LLM
simulations by incorporating factual, up-to-date knowledge retrieved from
external tutorials. Experiments show that R-WoM achieves substantial
improvements of up to 25.3% (OSWorld) and 18.1% (WebArena) compared to
baselines, with particular advantages in longer-horizon simulations.