Modelo de Mundo Baseado em Computador

Resumo

Agentes que operam em ambientes de software complexos beneficiam-se de raciocinar sobre as consequências de suas ações, uma vez que até mesmo uma única operação incorreta na interface do usuário (IU) pode descarrilar fluxos de trabalho longos e que preservam artefatos. Este desafio é particularmente agudo em cenários de uso de computador, onde a execução real não suporta exploração contrafactual, tornando o aprendizado e planejamento em larga escala por tentativa e erro impraticáveis, apesar do ambiente ser totalmente digital e determinístico. Apresentamos o Modelo de Mundo de Uso de Computador (CUWM), um modelo de mundo para software de desktop que prevê o próximo estado da IU dado o estado atual e uma ação candidata. O CUWM adota uma fatorização em dois estágios da dinâmica da IU: primeiro prevê uma descrição textual das mudanças de estado relevantes para o agente e, em seguida, realiza essas mudanças visualmente para sintetizar a próxima captura de tela. O CUWM é treinado em transições de IU offline coletadas de agentes interagindo com aplicativos reais do Microsoft Office e posteriormente refinado com um estágio leve de aprendizado por reforço que alinha as previsões de transição textual com os requisitos estruturais dos ambientes de uso de computador. Avaliamos o CUWM por meio de busca de ações em tempo de teste, onde um agente congelado usa o modelo de mundo para simular e comparar ações candidatas antes da execução. Em uma variedade de tarefas do Office, a escala em tempo de teste guiada pelo modelo de mundo melhora a qualidade da decisão e a robustez da execução.

English

Agents operating in complex software environments benefit from reasoning about the consequences of their actions, as even a single incorrect user interface (UI) operation can derail long, artifact-preserving workflows. This challenge is particularly acute for computer-using scenarios, where real execution does not support counterfactual exploration, making large-scale trial-and-error learning and planning impractical despite the environment being fully digital and deterministic. We introduce the Computer-Using World Model (CUWM), a world model for desktop software that predicts the next UI state given the current state and a candidate action. CUWM adopts a two-stage factorization of UI dynamics: it first predicts a textual description of agent-relevant state changes, and then realizes these changes visually to synthesize the next screenshot. CUWM is trained on offline UI transitions collected from agents interacting with real Microsoft Office applications, and further refined with a lightweight reinforcement learning stage that aligns textual transition predictions with the structural requirements of computer-using environments. We evaluate CUWM via test-time action search, where a frozen agent uses the world model to simulate and compare candidate actions before execution. Across a range of Office tasks, world-model-guided test-time scaling improves decision quality and execution robustness.