R-WoM: Retrieval-erweitertes Weltmodell für Computer-Nutzungsagenten
R-WoM: Retrieval-augmented World Model For Computer-use Agents
October 13, 2025
papers.authors: Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) können als Weltmodelle fungieren, um die Entscheidungsfindung von Agenten in digitalen Umgebungen zu verbessern, indem sie zukünftige Zustände simulieren und die Ergebnisse von Aktionen vorhersagen. Dies könnte kostspielige Trial-and-Error-Exploration überflüssig machen. Diese Fähigkeit ist jedoch grundlegend durch die Neigung von LLMs zu Halluzinationen und ihre Abhängigkeit von statischem Trainingswissen eingeschränkt, was zu sich verstärkenden Fehlern führen kann, die langfristige Simulationen behindern. Um systematisch zu untersuchen, ob LLMs für die Weltmodellierung geeignet sind, untersuchen wir zwei Kernfähigkeiten von Weltmodellen – die Vorhersage zukünftiger Zustände und die Schätzung von Belohnungen – anhand von drei Aufgaben: die Identifikation des nächsten Zustands, die Ausrichtung der vollständigen Verfahrensplanung und die Erkennung von Meilensteinübergängen. Unsere Analyse zeigt, dass LLMs zwar unmittelbar folgende Zustände effektiv erfassen und bedeutungsvolle Zustandsübergänge identifizieren können, ihre Leistung jedoch bei der vollständigen Verfahrensplanung rapide abnimmt. Dies unterstreicht die Grenzen von LLMs bei der zuverlässigen Modellierung von Umgebungsdynamiken über längere Zeiträume. Um diese Einschränkungen zu überwinden, schlagen wir das Retrieval-augmented World Model (R-WoM) vor, das LLM-Simulationen durch die Einbindung von faktischem, aktuellen Wissen aus externen Tutorials fundiert. Experimente zeigen, dass R-WoM im Vergleich zu Baselines erhebliche Verbesserungen von bis zu 25,3 % (OSWorld) und 18,1 % (WebArena) erzielt, mit besonderen Vorteilen bei Simulationen über längere Zeiträume.
English
Large Language Models (LLMs) can serve as world models to enhance agent
decision-making in digital environments by simulating future states and
predicting action outcomes, potentially eliminating costly trial-and-error
exploration. However, this capability is fundamentally limited by LLMs'
tendency toward hallucination and their reliance on static training knowledge,
which can lead to compounding errors that inhibit long-horizon simulations. To
systematically investigate whether LLMs are appropriate for world modeling, we
probe two core capabilities of world models--future state prediction and reward
estimation--through three tasks: next-state identification, full-procedure
planning alignment, and milestone transition recognition. Our analysis shows
that while LLMs effectively capture immediate next states and identify
meaningful state transitions, their performance rapidly degrades in
full-procedure planning. This highlights LLMs' limitations in reliably modeling
environment dynamics over long horizons. To address these limitations, we
propose the Retrieval-augmented World Model (R-WoM), which grounds LLM
simulations by incorporating factual, up-to-date knowledge retrieved from
external tutorials. Experiments show that R-WoM achieves substantial
improvements of up to 25.3% (OSWorld) and 18.1% (WebArena) compared to
baselines, with particular advantages in longer-horizon simulations.