ChatPaper.aiChatPaper

R-WoM : Modèle de Monde Augmenté par la Récupération pour Agents Informatiques

R-WoM: Retrieval-augmented World Model For Computer-use Agents

October 13, 2025
papers.authors: Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang
cs.AI

papers.abstract

Les modèles de langage de grande taille (LLMs) peuvent servir de modèles du monde pour améliorer la prise de décision des agents dans des environnements numériques en simulant des états futurs et en prédisant les résultats des actions, ce qui pourrait éliminer l'exploration coûteuse par essais et erreurs. Cependant, cette capacité est fondamentalement limitée par la tendance des LLMs à produire des hallucinations et leur dépendance à des connaissances statiques issues de l'entraînement, ce qui peut entraîner des erreurs cumulatives inhibant les simulations à long terme. Pour étudier systématiquement si les LLMs sont adaptés à la modélisation du monde, nous explorons deux capacités fondamentales des modèles du monde—la prédiction des états futurs et l'estimation des récompenses—à travers trois tâches : l'identification de l'état suivant, l'alignement de la planification de procédures complètes, et la reconnaissance des transitions de jalons. Notre analyse montre que si les LLMs capturent efficacement les états suivants immédiats et identifient des transitions d'état significatives, leurs performances se dégradent rapidement dans la planification de procédures complètes. Cela met en évidence les limites des LLMs dans la modélisation fiable de la dynamique des environnements sur de longues périodes. Pour pallier ces limites, nous proposons le Modèle du Monde Augmenté par Récupération (R-WoM), qui ancre les simulations des LLMs en intégrant des connaissances factuelles et actualisées extraites de tutoriels externes. Les expériences montrent que R-WoM réalise des améliorations substantielles allant jusqu'à 25,3 % (OSWorld) et 18,1 % (WebArena) par rapport aux modèles de référence, avec des avantages particuliers dans les simulations à plus long terme.
English
Large Language Models (LLMs) can serve as world models to enhance agent decision-making in digital environments by simulating future states and predicting action outcomes, potentially eliminating costly trial-and-error exploration. However, this capability is fundamentally limited by LLMs' tendency toward hallucination and their reliance on static training knowledge, which can lead to compounding errors that inhibit long-horizon simulations. To systematically investigate whether LLMs are appropriate for world modeling, we probe two core capabilities of world models--future state prediction and reward estimation--through three tasks: next-state identification, full-procedure planning alignment, and milestone transition recognition. Our analysis shows that while LLMs effectively capture immediate next states and identify meaningful state transitions, their performance rapidly degrades in full-procedure planning. This highlights LLMs' limitations in reliably modeling environment dynamics over long horizons. To address these limitations, we propose the Retrieval-augmented World Model (R-WoM), which grounds LLM simulations by incorporating factual, up-to-date knowledge retrieved from external tutorials. Experiments show that R-WoM achieves substantial improvements of up to 25.3% (OSWorld) and 18.1% (WebArena) compared to baselines, with particular advantages in longer-horizon simulations.
PDF212October 15, 2025