ChatPaper.aiChatPaper

R-WoM: Modelo de Mundo Aumentado por Recuperación para Agentes de Uso Informático

R-WoM: Retrieval-augmented World Model For Computer-use Agents

October 13, 2025
Autores: Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden funcionar como modelos del mundo para mejorar la toma de decisiones de agentes en entornos digitales mediante la simulación de estados futuros y la predicción de los resultados de acciones, lo que podría eliminar la costosa exploración por ensayo y error. Sin embargo, esta capacidad está fundamentalmente limitada por la tendencia de los LLMs a generar alucinaciones y su dependencia de conocimientos estáticos de entrenamiento, lo que puede llevar a errores acumulativos que inhiben simulaciones de largo plazo. Para investigar sistemáticamente si los LLMs son adecuados para modelar el mundo, examinamos dos capacidades centrales de los modelos del mundo—la predicción de estados futuros y la estimación de recompensas—a través de tres tareas: identificación del siguiente estado, alineación de planificación de procedimientos completos y reconocimiento de transiciones de hitos. Nuestro análisis muestra que, aunque los LLMs capturan eficazmente los siguientes estados inmediatos e identifican transiciones de estados significativas, su rendimiento se degrada rápidamente en la planificación de procedimientos completos. Esto resalta las limitaciones de los LLMs para modelar de manera confiable la dinámica del entorno en horizontes largos. Para abordar estas limitaciones, proponemos el Modelo del Mundo Aumentado con Recuperación (R-WoM, por sus siglas en inglés), que fundamenta las simulaciones de los LLMs incorporando conocimientos factuales y actualizados recuperados de tutoriales externos. Los experimentos muestran que R-WoM logra mejoras sustanciales de hasta un 25,3% (OSWorld) y un 18,1% (WebArena) en comparación con los métodos de referencia, con ventajas particulares en simulaciones de horizontes más largos.
English
Large Language Models (LLMs) can serve as world models to enhance agent decision-making in digital environments by simulating future states and predicting action outcomes, potentially eliminating costly trial-and-error exploration. However, this capability is fundamentally limited by LLMs' tendency toward hallucination and their reliance on static training knowledge, which can lead to compounding errors that inhibit long-horizon simulations. To systematically investigate whether LLMs are appropriate for world modeling, we probe two core capabilities of world models--future state prediction and reward estimation--through three tasks: next-state identification, full-procedure planning alignment, and milestone transition recognition. Our analysis shows that while LLMs effectively capture immediate next states and identify meaningful state transitions, their performance rapidly degrades in full-procedure planning. This highlights LLMs' limitations in reliably modeling environment dynamics over long horizons. To address these limitations, we propose the Retrieval-augmented World Model (R-WoM), which grounds LLM simulations by incorporating factual, up-to-date knowledge retrieved from external tutorials. Experiments show that R-WoM achieves substantial improvements of up to 25.3% (OSWorld) and 18.1% (WebArena) compared to baselines, with particular advantages in longer-horizon simulations.
PDF212October 15, 2025