R-WoM: 컴퓨터 사용 에이전트를 위한 검색 강화 월드 모델
R-WoM: Retrieval-augmented World Model For Computer-use Agents
October 13, 2025
저자: Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang
cs.AI
초록
대형 언어 모델(LLMs)은 디지털 환경에서 에이전트의 의사결정을 향상시키기 위해 세계 모델로 활용될 수 있으며, 미래 상태를 시뮬레이션하고 행동 결과를 예측함으로써 비용이 많이 드는 시행착오 탐색을 제거할 가능성이 있습니다. 그러나 이러한 능력은 LLM의 환각 경향과 정적 훈련 지식에 대한 의존성으로 인해 근본적으로 제한되며, 이는 장기적인 시뮬레이션을 방해하는 누적 오류로 이어질 수 있습니다. LLM이 세계 모델링에 적합한지 체계적으로 조사하기 위해, 우리는 세계 모델의 두 가지 핵심 능력인 미래 상태 예측과 보상 추정을 세 가지 작업을 통해 탐구합니다: 다음 상태 식별, 전체 절차 계획 정렬, 그리고 마일스톤 전환 인식. 우리의 분석은 LLM이 즉각적인 다음 상태를 효과적으로 포착하고 의미 있는 상태 전환을 식별하는 반면, 전체 절차 계획에서는 성능이 급격히 저하됨을 보여줍니다. 이는 LLM이 장기적인 환경 역학을 안정적으로 모델링하는 데 있어 한계를 강조합니다. 이러한 한계를 해결하기 위해, 우리는 외부 튜토리얼에서 검색된 사실적이고 최신의 지식을 통합하여 LLM 시뮬레이션을 기반으로 하는 검색 강화 세계 모델(R-WoM)을 제안합니다. 실험 결과, R-WoM은 기준선 대비 OSWorld에서 최대 25.3%, WebArena에서 18.1%의 상당한 개선을 달성하며, 특히 장기적인 시뮬레이션에서 우수한 성능을 보입니다.
English
Large Language Models (LLMs) can serve as world models to enhance agent
decision-making in digital environments by simulating future states and
predicting action outcomes, potentially eliminating costly trial-and-error
exploration. However, this capability is fundamentally limited by LLMs'
tendency toward hallucination and their reliance on static training knowledge,
which can lead to compounding errors that inhibit long-horizon simulations. To
systematically investigate whether LLMs are appropriate for world modeling, we
probe two core capabilities of world models--future state prediction and reward
estimation--through three tasks: next-state identification, full-procedure
planning alignment, and milestone transition recognition. Our analysis shows
that while LLMs effectively capture immediate next states and identify
meaningful state transitions, their performance rapidly degrades in
full-procedure planning. This highlights LLMs' limitations in reliably modeling
environment dynamics over long horizons. To address these limitations, we
propose the Retrieval-augmented World Model (R-WoM), which grounds LLM
simulations by incorporating factual, up-to-date knowledge retrieved from
external tutorials. Experiments show that R-WoM achieves substantial
improvements of up to 25.3% (OSWorld) and 18.1% (WebArena) compared to
baselines, with particular advantages in longer-horizon simulations.