Computergestuurd Wereldmodel

Samenvatting

Agenten die opereren in complexe softwareomgevingen hebben baat bij het redeneren over de gevolgen van hun handelingen, aangezien zelfs een enkele onjuiste gebruikersinterface (UI)-operatie lange, artefact-bewarende workflows kan doen ontsporen. Deze uitdaging is bijzonder groot in scenario's waar computers worden gebruikt, omdat echte uitvoering tegenfactoriële verkenning niet ondersteunt. Dit maakt grootschalig leren en plannen via trial-and-error onpraktisch, ondanks dat de omgeving volledig digitaal en deterministisch is. Wij introduceren het Computergebruik-Wereldmodel (CUWM), een wereldmodel voor desktopsoftware dat de volgende UI-toestand voorspelt op basis van de huidige toestand en een kandidaat-actie. CUWM hanteert een tweestaps-factorisatie van UI-dynamiek: het voorspelt eerst een tekstuele beschrijving van voor de agent relevante toestandsveranderingen, en visualiseert vervolgens deze veranderingen om de volgende schermafbeelding te synthetiseren. CUWM wordt getraind op offline UI-overgangen die zijn verzameld van agenten die interacteren met echte Microsoft Office-toepassingen, en verder verfijnd met een lichtgewicht reinforcement learning-fase die de tekstuele transitievoorspellingen afstemt op de structurele vereisten van computergebruikomgevingen. Wij evalueren CUWM via actiezoeken tijdens tests, waarbij een bevroren agent het wereldmodel gebruikt om kandidaat-acties te simuleren en vergelijken vóór uitvoering. Over een reeks Office-taken heen verbetert door een wereldmodel geleide testtijd-schaling de beslissingskwaliteit en uitvoeringsrobuustheid.

English

Agents operating in complex software environments benefit from reasoning about the consequences of their actions, as even a single incorrect user interface (UI) operation can derail long, artifact-preserving workflows. This challenge is particularly acute for computer-using scenarios, where real execution does not support counterfactual exploration, making large-scale trial-and-error learning and planning impractical despite the environment being fully digital and deterministic. We introduce the Computer-Using World Model (CUWM), a world model for desktop software that predicts the next UI state given the current state and a candidate action. CUWM adopts a two-stage factorization of UI dynamics: it first predicts a textual description of agent-relevant state changes, and then realizes these changes visually to synthesize the next screenshot. CUWM is trained on offline UI transitions collected from agents interacting with real Microsoft Office applications, and further refined with a lightweight reinforcement learning stage that aligns textual transition predictions with the structural requirements of computer-using environments. We evaluate CUWM via test-time action search, where a frozen agent uses the world model to simulate and compare candidate actions before execution. Across a range of Office tasks, world-model-guided test-time scaling improves decision quality and execution robustness.