R-WoM: Modelo de Mundo Aumentado por Recuperação para Agentes de Uso Computacional
R-WoM: Retrieval-augmented World Model For Computer-use Agents
October 13, 2025
Autores: Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) podem servir como modelos de mundo para aprimorar a tomada de decisão de agentes em ambientes digitais, simulando estados futuros e prevendo os resultados de ações, potencialmente eliminando a exploração custosa por tentativa e erro. No entanto, essa capacidade é fundamentalmente limitada pela tendência dos LLMs à alucinação e sua dependência de conhecimento estático de treinamento, o que pode levar a erros cumulativos que inibem simulações de longo prazo. Para investigar sistematicamente se os LLMs são adequados para modelagem de mundo, exploramos duas capacidades centrais dos modelos de mundo—previsão de estados futuros e estimativa de recompensa—por meio de três tarefas: identificação do próximo estado, alinhamento de planejamento de procedimentos completos e reconhecimento de transições de marcos. Nossa análise mostra que, embora os LLMs capturem efetivamente os próximos estados imediatos e identifiquem transições de estado significativas, seu desempenho se degrada rapidamente no planejamento de procedimentos completos. Isso destaca as limitações dos LLMs em modelar de forma confiável a dinâmica do ambiente em horizontes longos. Para abordar essas limitações, propomos o Modelo de Mundo Aumentado por Recuperação (R-WoM), que fundamenta as simulações dos LLMs incorporando conhecimento factual e atualizado recuperado de tutoriais externos. Experimentos mostram que o R-WoM alcança melhorias substanciais de até 25,3% (OSWorld) e 18,1% (WebArena) em comparação com as linhas de base, com vantagens particulares em simulações de horizonte mais longo.
English
Large Language Models (LLMs) can serve as world models to enhance agent
decision-making in digital environments by simulating future states and
predicting action outcomes, potentially eliminating costly trial-and-error
exploration. However, this capability is fundamentally limited by LLMs'
tendency toward hallucination and their reliance on static training knowledge,
which can lead to compounding errors that inhibit long-horizon simulations. To
systematically investigate whether LLMs are appropriate for world modeling, we
probe two core capabilities of world models--future state prediction and reward
estimation--through three tasks: next-state identification, full-procedure
planning alignment, and milestone transition recognition. Our analysis shows
that while LLMs effectively capture immediate next states and identify
meaningful state transitions, their performance rapidly degrades in
full-procedure planning. This highlights LLMs' limitations in reliably modeling
environment dynamics over long horizons. To address these limitations, we
propose the Retrieval-augmented World Model (R-WoM), which grounds LLM
simulations by incorporating factual, up-to-date knowledge retrieved from
external tutorials. Experiments show that R-WoM achieves substantial
improvements of up to 25.3% (OSWorld) and 18.1% (WebArena) compared to
baselines, with particular advantages in longer-horizon simulations.