ChatPaper.aiChatPaper

R-WoM: Retrieval-augmented Wereldmodel voor Computergebruikende Agents

R-WoM: Retrieval-augmented World Model For Computer-use Agents

October 13, 2025
Auteurs: Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang
cs.AI

Samenvatting

Grote Taalmodellen (LLM's) kunnen dienen als wereldmodellen om de besluitvorming van agents in digitale omgevingen te verbeteren door toekomstige toestanden te simuleren en actie-uitkomsten te voorspellen, wat kostbare trial-and-error-verkenning mogelijk overbodig maakt. Deze mogelijkheid wordt echter fundamenteel beperkt door de neiging van LLM's tot hallucinatie en hun afhankelijkheid van statische trainingskennis, wat kan leiden tot opeenstapelende fouten die langetermijnsimulaties belemmeren. Om systematisch te onderzoeken of LLM's geschikt zijn voor wereldmodellering, onderzoeken we twee kerncapaciteiten van wereldmodellen—toekomstige toestandsvoorspelling en beloningsschatting—via drie taken: identificatie van de volgende toestand, afstemming van volledige procedureplanning en herkenning van mijlpaalovergangen. Onze analyse toont aan dat hoewel LLM's directe volgende toestanden effectief vastleggen en betekenisvolle toestandsovergangen identificeren, hun prestaties snel verslechteren bij volledige procedureplanning. Dit benadrukt de beperkingen van LLM's in het betrouwbaar modelleren van omgevingsdynamiek over langere termijnen. Om deze beperkingen aan te pakken, stellen we het Retrieval-augmented World Model (R-WoM) voor, dat LLM-simulaties onderbouwt door feitelijke, actuele kennis uit externe tutorials te integreren. Experimenten tonen aan dat R-WoM aanzienlijke verbeteringen bereikt van tot wel 25,3% (OSWorld) en 18,1% (WebArena) in vergelijking met baseline-modellen, met name voordelen in langetermijnsimulaties.
English
Large Language Models (LLMs) can serve as world models to enhance agent decision-making in digital environments by simulating future states and predicting action outcomes, potentially eliminating costly trial-and-error exploration. However, this capability is fundamentally limited by LLMs' tendency toward hallucination and their reliance on static training knowledge, which can lead to compounding errors that inhibit long-horizon simulations. To systematically investigate whether LLMs are appropriate for world modeling, we probe two core capabilities of world models--future state prediction and reward estimation--through three tasks: next-state identification, full-procedure planning alignment, and milestone transition recognition. Our analysis shows that while LLMs effectively capture immediate next states and identify meaningful state transitions, their performance rapidly degrades in full-procedure planning. This highlights LLMs' limitations in reliably modeling environment dynamics over long horizons. To address these limitations, we propose the Retrieval-augmented World Model (R-WoM), which grounds LLM simulations by incorporating factual, up-to-date knowledge retrieved from external tutorials. Experiments show that R-WoM achieves substantial improvements of up to 25.3% (OSWorld) and 18.1% (WebArena) compared to baselines, with particular advantages in longer-horizon simulations.
PDF212October 15, 2025