Modelo Mundial de Uso de Computadoras

Resumen

Los agentes que operan en entornos de software complejos se benefician de razonar sobre las consecuencias de sus acciones, ya que incluso una única operación incorrecta en la interfaz de usuario (UI) puede descarrilar flujos de trabajo largos que preservan artefactos. Este desafío es particularmente agudo en escenarios de uso informático, donde la ejecución real no admite la exploración contrafáctica, haciendo que el aprendizaje y la planificación a gran escala por prueba y error sean impracticables, a pesar de que el entorno es completamente digital y determinista. Presentamos el Modelo de Mundo para Uso Informático (CUWM), un modelo mundial para software de escritorio que predice el siguiente estado de la UI dado el estado actual y una acción candidata. El CUWM adopta una factorización en dos etapas de la dinámica de la UI: primero predice una descripción textual de los cambios de estado relevantes para el agente, y luego materializa estos cambios visualmente para sintetizar la siguiente captura de pantalla. El CUWM se entrena con transiciones de UI recopiladas offline de agentes que interactúan con aplicaciones reales de Microsoft Office, y se refina further con una etapa ligera de aprendizaje por refuerzo que alinea las predicciones textuales de transición con los requisitos estructurales de los entornos informáticos. Evaluamos el CUWM mediante búsqueda de acciones en tiempo de prueba, donde un agente congelado utiliza el modelo mundial para simular y comparar acciones candidatas antes de la ejecución. En una variedad de tareas de Office, la escalación en tiempo de prueba guiada por el modelo mundial mejora la calidad de la decisión y la robustez de la ejecución.

English

Agents operating in complex software environments benefit from reasoning about the consequences of their actions, as even a single incorrect user interface (UI) operation can derail long, artifact-preserving workflows. This challenge is particularly acute for computer-using scenarios, where real execution does not support counterfactual exploration, making large-scale trial-and-error learning and planning impractical despite the environment being fully digital and deterministic. We introduce the Computer-Using World Model (CUWM), a world model for desktop software that predicts the next UI state given the current state and a candidate action. CUWM adopts a two-stage factorization of UI dynamics: it first predicts a textual description of agent-relevant state changes, and then realizes these changes visually to synthesize the next screenshot. CUWM is trained on offline UI transitions collected from agents interacting with real Microsoft Office applications, and further refined with a lightweight reinforcement learning stage that aligns textual transition predictions with the structural requirements of computer-using environments. We evaluate CUWM via test-time action search, where a frozen agent uses the world model to simulate and compare candidate actions before execution. Across a range of Office tasks, world-model-guided test-time scaling improves decision quality and execution robustness.