Weltmodell mit Computernutzung

papers.abstract

Agenten, die in komplexen Softwareumgebungen operieren, profitieren davon, die Konsequenzen ihrer Aktionen zu antizipieren, da bereits eine einzelne fehlerhafte Benutzeroberflächen-Operation (UI-Operation) lange, artefakterhaltende Arbeitsabläufe scheitern lassen kann. Diese Herausforderung ist besonders gravierend in computernutzenden Szenarien, wo echte Ausführung keine kontrafaktische Exploration erlaubt, was groß angelegtes Lernen durch Versuch und Irrtum sowie Planung unpraktikabel macht – obwohl die Umgebung vollständig digital und deterministisch ist. Wir stellen das Computer-Using World Model (CUWM) vor, ein Weltmodell für Desktop-Software, das den nächsten UI-Zustand basierend auf dem aktuellen Zustand und einer potenziellen Aktion vorhersagt. CUWM adaptiert eine zweistufige Faktorisierung der UI-Dynamik: Es sagt zunächst eine textuelle Beschreibung der für den Agenten relevanten Zustandsänderungen vorher und visualisiert diese Änderungen anschließend, um den nächsten Screenshot zu synthetisieren. CUWM wird auf offline gesammelten UI-Übergängen trainiert, die von Agenten stammen, die mit echten Microsoft Office-Anwendungen interagieren, und durch eine leichtgewichtige Verstärkungslern-Phase verfeinert, welche die textuellen Übergangsvorhersagen an die strukturellen Anforderungen computernutzender Umgebungen anpasst. Wir evaluieren CUWM mittels Aktionssuche zur Testzeit, bei der ein eingefrorener Agent das Weltmodell nutzt, um Kandidatenaktionen vor der Ausführung zu simulieren und zu vergleichen. Über eine Reihe von Office-Aufgaben hinweg verbessert die weltmodellgesteuerte Skalierung zur Testzeit die Entscheidungsqualität und Ausführungsrobustheit.

English

Agents operating in complex software environments benefit from reasoning about the consequences of their actions, as even a single incorrect user interface (UI) operation can derail long, artifact-preserving workflows. This challenge is particularly acute for computer-using scenarios, where real execution does not support counterfactual exploration, making large-scale trial-and-error learning and planning impractical despite the environment being fully digital and deterministic. We introduce the Computer-Using World Model (CUWM), a world model for desktop software that predicts the next UI state given the current state and a candidate action. CUWM adopts a two-stage factorization of UI dynamics: it first predicts a textual description of agent-relevant state changes, and then realizes these changes visually to synthesize the next screenshot. CUWM is trained on offline UI transitions collected from agents interacting with real Microsoft Office applications, and further refined with a lightweight reinforcement learning stage that aligns textual transition predictions with the structural requirements of computer-using environments. We evaluate CUWM via test-time action search, where a frozen agent uses the world model to simulate and compare candidate actions before execution. Across a range of Office tasks, world-model-guided test-time scaling improves decision quality and execution robustness.