ChatPaper.aiChatPaper

UltraCUA: Um Modelo Base para Agentes de Uso de Computador com Ação Híbrida

UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action

October 20, 2025
Autores: Yuhao Yang, Zhen Yang, Zi-Yi Dou, Anh Nguyen, Keen You, Omar Attia, Andrew Szot, Michael Feng, Ram Ramrakhya, Alexander Toshev, Chao Huang, Yinfei Yang, Zhe Gan
cs.AI

Resumo

Agentes multimodais para uso de computador dependem exclusivamente de ações primitivas (clicar, digitar, rolar) que exigem um ancoramento visual preciso e cadeias de execução longas, resultando em falhas em cascata e gargalos de desempenho. Enquanto outros agentes aproveitam interfaces programáticas ricas (APIs, servidores MCP, ferramentas), os agentes de uso de computador (CUAs, na sigla em inglês) permanecem isolados dessas capacidades. Apresentamos o UltraCUA, um modelo de base que preenche essa lacuna por meio de ação híbrida — integrando de forma contínua primitivas de interface gráfica (GUI) com chamadas de ferramentas programáticas de alto nível. Para alcançar isso, nossa abordagem compreende quatro componentes principais: (1) um pipeline automatizado que escala ferramentas programáticas a partir de documentação de software, repositórios de código aberto e geração de código; (2) um mecanismo de dados sintéticos que produz mais de 17.000 tarefas verificáveis abrangendo cenários reais de uso de computador; (3) uma coleção em larga escala de trajetórias de ação híbrida de alta qualidade, com ações de GUI de baixo nível e chamadas de ferramentas programáticas de alto nível; e (4) um pipeline de treinamento em duas etapas que combina ajuste fino supervisionado com aprendizado por reforço online, permitindo a alternância estratégica entre ações de baixo e alto nível. Experimentos com nossos modelos de 7B e 32B demonstram melhorias substanciais em relação aos agentes state-of-the-art. No OSWorld, os modelos UltraCUA alcançam uma melhoria relativa média de 22% sobre os modelos base, enquanto são 11% mais rápidos em termos de etapas. A avaliação fora do domínio no WindowsAgentArena mostra que nosso modelo atinge uma taxa de sucesso de 21,7%, superando baselines treinados em dados do Windows. O mecanismo de ação híbrida se mostrou crítico, reduzindo a propagação de erros enquanto mantém a eficiência de execução.
English
Multimodal agents for computer use rely exclusively on primitive actions (click, type, scroll) that require accurate visual grounding and lengthy execution chains, leading to cascading failures and performance bottlenecks. While other agents leverage rich programmatic interfaces (APIs, MCP servers, tools), computer-use agents (CUAs) remain isolated from these capabilities. We present UltraCUA, a foundation model that bridges this gap through hybrid action -- seamlessly integrating GUI primitives with high-level programmatic tool calls. To achieve this, our approach comprises four key components: (1) an automated pipeline that scales programmatic tools from software documentation, open-source repositories, and code generation; (2) a synthetic data engine producing over 17,000 verifiable tasks spanning real-world computer-use scenarios; (3) a large-scale high-quality hybrid action trajectory collection with both low-level GUI actions and high-level programmatic tool calls; and (4) a two-stage training pipeline combining supervised fine-tuning with online reinforcement learning, enabling strategic alternation between low-level and high-level actions. Experiments with our 7B and 32B models demonstrate substantial improvements over state-of-the-art agents. On OSWorld, UltraCUA models achieve an average 22% relative improvement over base models, while being 11% faster in terms of steps. Out-of-domain evaluation on WindowsAgentArena shows our model reaches 21.7% success rate, outperforming baselines trained on Windows data. The hybrid action mechanism proves critical, reducing error propagation while maintaining execution efficiency.
PDF32October 21, 2025