Modèle du monde utilisateur de l'ordinateur

papers.abstract

Les agents opérant dans des environnements logiciels complexes bénéficient de la capacité à raisonner sur les conséquences de leurs actions, car une seule opération incorrecte sur l'interface utilisateur (UI) peut compromettre des flux de travail longs et préservant des artefacts. Ce défi est particulièrement aigu dans les scénarios informatiques, où l'exécution réelle ne permet pas une exploration contrefactuelle, rendant l'apprentissage par essais et erreurs à grande échelle et la planification impraticables, bien que l'environnement soit entièrement numérique et déterministe. Nous présentons le Modèle de Monde Informatique (Computer-Using World Model, CUWM), un modèle de monde pour les logiciels de bureau qui prédit l'état suivant de l'interface utilisateur étant donné l'état actuel et une action candidate. CUWM adopte une factorisation en deux étapes de la dynamique de l'interface utilisateur : il prédit d'abord une description textuelle des changements d'état pertinents pour l'agent, puis matérialise visuellement ces changements pour synthétiser la prochaine capture d'écran. CUWM est entraîné sur des transitions d'interface utilisateur hors ligne collectées auprès d'agents interagissant avec de vraies applications Microsoft Office, et est ensuite affiné par une étape légère d'apprentissage par renforcement qui aligne les prédictions textuelles des transitions avec les exigences structurelles des environnvironnements informatiques. Nous évaluons CUWM via une recherche d'actions au moment du test, où un agent figé utilise le modèle de monde pour simuler et comparer les actions candidates avant exécution. Sur une série de tâches Office, la mise à l'échelle au moment du test guidée par le modèle de monde améliore la qualité des décisions et la robustesse de l'exécution.

English

Agents operating in complex software environments benefit from reasoning about the consequences of their actions, as even a single incorrect user interface (UI) operation can derail long, artifact-preserving workflows. This challenge is particularly acute for computer-using scenarios, where real execution does not support counterfactual exploration, making large-scale trial-and-error learning and planning impractical despite the environment being fully digital and deterministic. We introduce the Computer-Using World Model (CUWM), a world model for desktop software that predicts the next UI state given the current state and a candidate action. CUWM adopts a two-stage factorization of UI dynamics: it first predicts a textual description of agent-relevant state changes, and then realizes these changes visually to synthesize the next screenshot. CUWM is trained on offline UI transitions collected from agents interacting with real Microsoft Office applications, and further refined with a lightweight reinforcement learning stage that aligns textual transition predictions with the structural requirements of computer-using environments. We evaluate CUWM via test-time action search, where a frozen agent uses the world model to simulate and compare candidate actions before execution. Across a range of Office tasks, world-model-guided test-time scaling improves decision quality and execution robustness.