R-WoM: Modello del Mondo Aumentato con Recupero per Agenti di Utilizzo del Computer
R-WoM: Retrieval-augmented World Model For Computer-use Agents
October 13, 2025
Autori: Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang
cs.AI
Abstract
I Large Language Model (LLM) possono fungere da modelli del mondo per migliorare il processo decisionale degli agenti in ambienti digitali simulando stati futuri e prevedendo i risultati delle azioni, potenzialmente eliminando l'esplorazione costosa basata su tentativi ed errori. Tuttavia, questa capacità è fondamentalmente limitata dalla tendenza degli LLM a produrre allucinazioni e dalla loro dipendenza da conoscenze statiche acquisite durante l'addestramento, che possono portare a errori cumulativi che inibiscono simulazioni a lungo termine. Per indagare sistematicamente se gli LLM siano adatti alla modellazione del mondo, esploriamo due capacità fondamentali dei modelli del mondo—la previsione degli stati futuri e la stima delle ricompense—attraverso tre compiti: identificazione dello stato successivo, allineamento della pianificazione di procedure complete e riconoscimento delle transizioni tra milestone. La nostra analisi mostra che, sebbene gli LLM catturino efficacemente gli stati immediatamente successivi e identifichino transizioni di stato significative, le loro prestazioni si degradano rapidamente nella pianificazione di procedure complete. Ciò evidenzia i limiti degli LLM nel modellare in modo affidabile le dinamiche ambientali su orizzonti temporali lunghi. Per affrontare queste limitazioni, proponiamo il Retrieval-augmented World Model (R-WoM), che ancorano le simulazioni degli LLM incorporando conoscenze fattuali e aggiornate recuperate da tutorial esterni. Gli esperimenti dimostrano che R-WoM ottiene miglioramenti sostanziali fino al 25,3% (OSWorld) e al 18,1% (WebArena) rispetto ai baseline, con vantaggi particolari nelle simulazioni a più lungo termine.
English
Large Language Models (LLMs) can serve as world models to enhance agent
decision-making in digital environments by simulating future states and
predicting action outcomes, potentially eliminating costly trial-and-error
exploration. However, this capability is fundamentally limited by LLMs'
tendency toward hallucination and their reliance on static training knowledge,
which can lead to compounding errors that inhibit long-horizon simulations. To
systematically investigate whether LLMs are appropriate for world modeling, we
probe two core capabilities of world models--future state prediction and reward
estimation--through three tasks: next-state identification, full-procedure
planning alignment, and milestone transition recognition. Our analysis shows
that while LLMs effectively capture immediate next states and identify
meaningful state transitions, their performance rapidly degrades in
full-procedure planning. This highlights LLMs' limitations in reliably modeling
environment dynamics over long horizons. To address these limitations, we
propose the Retrieval-augmented World Model (R-WoM), which grounds LLM
simulations by incorporating factual, up-to-date knowledge retrieved from
external tutorials. Experiments show that R-WoM achieves substantial
improvements of up to 25.3% (OSWorld) and 18.1% (WebArena) compared to
baselines, with particular advantages in longer-horizon simulations.