R-WoM: Retrieval-augmented Wereldmodel voor Computergebruikende Agents
R-WoM: Retrieval-augmented World Model For Computer-use Agents
October 13, 2025
Auteurs: Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) kunnen dienen als wereldmodellen om de besluitvorming van agents in digitale omgevingen te verbeteren door toekomstige toestanden te simuleren en actie-uitkomsten te voorspellen, wat kostbare trial-and-error-verkenning mogelijk overbodig maakt. Deze mogelijkheid wordt echter fundamenteel beperkt door de neiging van LLM's tot hallucinatie en hun afhankelijkheid van statische trainingskennis, wat kan leiden tot opeenstapelende fouten die langetermijnsimulaties belemmeren. Om systematisch te onderzoeken of LLM's geschikt zijn voor wereldmodellering, onderzoeken we twee kerncapaciteiten van wereldmodellen—toekomstige toestandsvoorspelling en beloningsschatting—via drie taken: identificatie van de volgende toestand, afstemming van volledige procedureplanning en herkenning van mijlpaalovergangen. Onze analyse toont aan dat hoewel LLM's directe volgende toestanden effectief vastleggen en betekenisvolle toestandsovergangen identificeren, hun prestaties snel verslechteren bij volledige procedureplanning. Dit benadrukt de beperkingen van LLM's in het betrouwbaar modelleren van omgevingsdynamiek over langere termijnen. Om deze beperkingen aan te pakken, stellen we het Retrieval-augmented World Model (R-WoM) voor, dat LLM-simulaties onderbouwt door feitelijke, actuele kennis uit externe tutorials te integreren. Experimenten tonen aan dat R-WoM aanzienlijke verbeteringen bereikt van tot wel 25,3% (OSWorld) en 18,1% (WebArena) in vergelijking met baseline-modellen, met name voordelen in langetermijnsimulaties.
English
Large Language Models (LLMs) can serve as world models to enhance agent
decision-making in digital environments by simulating future states and
predicting action outcomes, potentially eliminating costly trial-and-error
exploration. However, this capability is fundamentally limited by LLMs'
tendency toward hallucination and their reliance on static training knowledge,
which can lead to compounding errors that inhibit long-horizon simulations. To
systematically investigate whether LLMs are appropriate for world modeling, we
probe two core capabilities of world models--future state prediction and reward
estimation--through three tasks: next-state identification, full-procedure
planning alignment, and milestone transition recognition. Our analysis shows
that while LLMs effectively capture immediate next states and identify
meaningful state transitions, their performance rapidly degrades in
full-procedure planning. This highlights LLMs' limitations in reliably modeling
environment dynamics over long horizons. To address these limitations, we
propose the Retrieval-augmented World Model (R-WoM), which grounds LLM
simulations by incorporating factual, up-to-date knowledge retrieved from
external tutorials. Experiments show that R-WoM achieves substantial
improvements of up to 25.3% (OSWorld) and 18.1% (WebArena) compared to
baselines, with particular advantages in longer-horizon simulations.