Мир, использующий компьютерные модели

Аннотация

Агенты, работающие в сложных программных средах, получают преимущество от прогнозирования последствий своих действий, поскольку даже одна некорректная операция с пользовательским интерфейсом (UI) может нарушить длительные рабочие процессы, требующие сохранения артефактов. Эта проблема особенно остро стоит в сценариях работы с компьютером, где реальное выполнение не поддерживает контрфактическое исследование, что делает крупномасштабное обучение методом проб и ошибок и планирование непрактичными, несмотря на полностью цифровую и детерминированную природу среды. Мы представляем Компьютерную Модель Мира (CUWM) — модель мира для настольного программного обеспечения, которая предсказывает следующее состояние UI на основе текущего состояния и предполагаемого действия. CUWM использует двухэтапную факторизацию динамики UI: сначала модель предсказывает текстовое описание изменений состояния, релевантных для агента, а затем визуализирует эти изменения для синтеза следующего снимка экрана. CUWM обучается на оффлайн-переходах UI, собранных при взаимодействии агентов с реальными приложениями Microsoft Office, и дополнительно дорабатывается с помощью этапа облегченного обучения с подкреплением, который согласовывает текстовые предсказания переходов со структурными требованиями компьютерных сред. Мы оцениваем CUWM с помощью поиска действий во время тестирования, когда замороженный агент использует модель мира для имитации и сравнения кандидатных действий перед их выполнением. На множестве задач в Office масштабирование на этапе тестирования с руководством модели мира улучшает качество решений и надежность выполнения.

English

Agents operating in complex software environments benefit from reasoning about the consequences of their actions, as even a single incorrect user interface (UI) operation can derail long, artifact-preserving workflows. This challenge is particularly acute for computer-using scenarios, where real execution does not support counterfactual exploration, making large-scale trial-and-error learning and planning impractical despite the environment being fully digital and deterministic. We introduce the Computer-Using World Model (CUWM), a world model for desktop software that predicts the next UI state given the current state and a candidate action. CUWM adopts a two-stage factorization of UI dynamics: it first predicts a textual description of agent-relevant state changes, and then realizes these changes visually to synthesize the next screenshot. CUWM is trained on offline UI transitions collected from agents interacting with real Microsoft Office applications, and further refined with a lightweight reinforcement learning stage that aligns textual transition predictions with the structural requirements of computer-using environments. We evaluate CUWM via test-time action search, where a frozen agent uses the world model to simulate and compare candidate actions before execution. Across a range of Office tasks, world-model-guided test-time scaling improves decision quality and execution robustness.