Modello del Mondo Basato sul Computer

Abstract

Gli agenti che operano in ambienti software complessi traggono vantaggio dalla capacità di ragionare sulle conseguenze delle proprie azioni, poiché anche una singola operazione errata sull'interfaccia utente (UI) può compromettere flussi di lavoro lunghi e che preservano artefatti. Questa sfida è particolarmente acuta negli scenari di utilizzo del computer, dove l'esecuzione reale non supporta l'esplorazione controfattuale, rendendo impraticabile l'apprendimento e la pianificazione su larga scala per tentativi ed errori, nonostante l'ambiente sia completamente digitale e deterministico. Introduciamo il Computer-Using World Model (CUWM), un modello del mondo per il software desktop che predice lo stato successivo dell'UI dato lo stato corrente e un'azione candidata. CUWM adotta una scomposizione in due stadi della dinamica dell'UI: prima predice una descrizione testuale dei cambiamenti di stato rilevanti per l'agente, e poi realizza visivamente questi cambiamenti per sintetizzare lo screenshot successivo. CUWM è addestrato su transizioni dell'UI raccolte offline da agenti che interagiscono con applicazioni reali di Microsoft Office, e ulteriormente raffinato con una fase di apprendimento per rinforzo leggero che allinea le predizioni testuali delle transizioni con i requisiti strutturali degli ambienti di utilizzo del computer. Valutiamo CUWM tramite una ricerca di azioni durante il test, in cui un agente congelato utilizza il modello del mondo per simulare e confrontare azioni candidate prima dell'esecuzione. In una gamma di attività su Office, il ridimensionamento guidato dal modello del mondo durante il test migliora la qualità decisionale e la robustezza dell'esecuzione.

English

Agents operating in complex software environments benefit from reasoning about the consequences of their actions, as even a single incorrect user interface (UI) operation can derail long, artifact-preserving workflows. This challenge is particularly acute for computer-using scenarios, where real execution does not support counterfactual exploration, making large-scale trial-and-error learning and planning impractical despite the environment being fully digital and deterministic. We introduce the Computer-Using World Model (CUWM), a world model for desktop software that predicts the next UI state given the current state and a candidate action. CUWM adopts a two-stage factorization of UI dynamics: it first predicts a textual description of agent-relevant state changes, and then realizes these changes visually to synthesize the next screenshot. CUWM is trained on offline UI transitions collected from agents interacting with real Microsoft Office applications, and further refined with a lightweight reinforcement learning stage that aligns textual transition predictions with the structural requirements of computer-using environments. We evaluate CUWM via test-time action search, where a frozen agent uses the world model to simulate and compare candidate actions before execution. Across a range of Office tasks, world-model-guided test-time scaling improves decision quality and execution robustness.