ChatPaper.aiChatPaper

UltraCUA: Базисная модель для агентов компьютерного взаимодействия с гибридным действием

UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action

October 20, 2025
Авторы: Yuhao Yang, Zhen Yang, Zi-Yi Dou, Anh Nguyen, Keen You, Omar Attia, Andrew Szot, Michael Feng, Ram Ramrakhya, Alexander Toshev, Chao Huang, Yinfei Yang, Zhe Gan
cs.AI

Аннотация

Мультимодальные агенты для работы с компьютером полагаются исключительно на примитивные действия (клик, ввод текста, прокрутка), которые требуют точного визуального заземления и длинных цепочек выполнения, что приводит к каскадным сбоям и узким местам в производительности. В то время как другие агенты используют богатые программные интерфейсы (API, серверы MCP, инструменты), агенты для работы с компьютером (CUAs) остаются изолированными от этих возможностей. Мы представляем UltraCUA, базовую модель, которая устраняет этот разрыв за счет гибридных действий — бесшовного интегрирования примитивов графического интерфейса с вызовами высокоуровневых программных инструментов. Для достижения этого наш подход включает четыре ключевых компонента: (1) автоматизированный конвейер, который масштабирует программные инструменты на основе документации, открытых репозиториев и генерации кода; (2) синтетический механизм данных, создающий более 17 000 проверяемых задач, охватывающих реальные сценарии работы с компьютером; (3) крупномасштабный сбор высококачественных траекторий гибридных действий, включающих как низкоуровневые действия графического интерфейса, так и высокоуровневые вызовы программных инструментов; и (4) двухэтапный конвейер обучения, сочетающий тонкую настройку с обучением с подкреплением в реальном времени, что позволяет стратегически чередовать низкоуровневые и высокоуровневые действия. Эксперименты с нашими моделями на 7B и 32B параметров демонстрируют значительные улучшения по сравнению с современными агентами. На платформе OSWorld модели UltraCUA достигают среднего относительного улучшения на 22% по сравнению с базовыми моделями, при этом выполняя шаги на 11% быстрее. Оценка вне домена на WindowsAgentArena показывает, что наша модель достигает уровня успешности 21,7%, превосходя базовые модели, обученные на данных Windows. Гибридный механизм действий оказывается критически важным, снижая распространение ошибок при сохранении эффективности выполнения.
English
Multimodal agents for computer use rely exclusively on primitive actions (click, type, scroll) that require accurate visual grounding and lengthy execution chains, leading to cascading failures and performance bottlenecks. While other agents leverage rich programmatic interfaces (APIs, MCP servers, tools), computer-use agents (CUAs) remain isolated from these capabilities. We present UltraCUA, a foundation model that bridges this gap through hybrid action -- seamlessly integrating GUI primitives with high-level programmatic tool calls. To achieve this, our approach comprises four key components: (1) an automated pipeline that scales programmatic tools from software documentation, open-source repositories, and code generation; (2) a synthetic data engine producing over 17,000 verifiable tasks spanning real-world computer-use scenarios; (3) a large-scale high-quality hybrid action trajectory collection with both low-level GUI actions and high-level programmatic tool calls; and (4) a two-stage training pipeline combining supervised fine-tuning with online reinforcement learning, enabling strategic alternation between low-level and high-level actions. Experiments with our 7B and 32B models demonstrate substantial improvements over state-of-the-art agents. On OSWorld, UltraCUA models achieve an average 22% relative improvement over base models, while being 11% faster in terms of steps. Out-of-domain evaluation on WindowsAgentArena shows our model reaches 21.7% success rate, outperforming baselines trained on Windows data. The hybrid action mechanism proves critical, reducing error propagation while maintaining execution efficiency.
PDF32October 21, 2025