ChatPaper.aiChatPaper

OpenCUA: Fundamentos Abertos para Agentes de Uso Computacional

OpenCUA: Open Foundations for Computer-Use Agents

August 12, 2025
Autores: Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, Jiaqi Deng, Xiaole Guo, Yiheng Xu, Chen Henry Wu, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Peihang Li, Fangyu Lei, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Jiarui Hu, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu
cs.AI

Resumo

Modelos de visão e linguagem têm demonstrado capacidades impressionantes como agentes de uso de computador (CUAs, na sigla em inglês), capazes de automatizar diversas tarefas computacionais. À medida que seu potencial comercial cresce, detalhes críticos dos sistemas CUA mais avançados permanecem fechados. Como esses agentes mediarão cada vez mais interações digitais e executarão decisões importantes em nosso nome, a comunidade de pesquisa precisa de acesso a frameworks CUA abertos para estudar suas capacidades, limitações e riscos. Para preencher essa lacuna, propomos o OpenCUA, um framework abrangente e de código aberto para escalar dados e modelos de base CUA. Nosso framework consiste em: (1) uma infraestrutura de anotação que captura de forma contínua demonstrações de uso de computador por humanos; (2) o AgentNet, o primeiro conjunto de dados em larga escala de tarefas de uso de computador, abrangendo 3 sistemas operacionais e mais de 200 aplicativos e sites; (3) um pipeline escalável que transforma demonstrações em pares estado-ação com raciocínio reflexivo de Cadeia de Pensamento (Chain-of-Thought) que sustenta ganhos robustos de desempenho à medida que os dados escalam. Nossos modelos de agentes de ponta a ponta demonstram um desempenho forte em benchmarks CUA. Em particular, o OpenCUA-32B alcança uma taxa média de sucesso de 34,8% no OSWorld-Verified, estabelecendo um novo estado da arte (SOTA) entre modelos de código aberto e superando o CUA da OpenAI (GPT-4o). Análises adicionais confirmam que nossa abordagem generaliza bem entre domínios e se beneficia significativamente do aumento da computação em tempo de teste. Disponibilizamos nossa ferramenta de anotação, conjuntos de dados, código e modelos para construir bases abertas para futuras pesquisas em CUA.
English
Vision-language models have demonstrated impressive capabilities as computer-use agents (CUAs) capable of automating diverse computer tasks. As their commercial potential grows, critical details of the most capable CUA systems remain closed. As these agents will increasingly mediate digital interactions and execute consequential decisions on our behalf, the research community needs access to open CUA frameworks to study their capabilities, limitations, and risks. To bridge this gap, we propose OpenCUA, a comprehensive open-source framework for scaling CUA data and foundation models. Our framework consists of: (1) an annotation infrastructure that seamlessly captures human computer-use demonstrations; (2) AgentNet, the first large-scale computer-use task dataset spanning 3 operating systems and 200+ applications and websites; (3) a scalable pipeline that transforms demonstrations into state-action pairs with reflective long Chain-of-Thought reasoning that sustain robust performance gains as data scales. Our end-to-end agent models demonstrate strong performance across CUA benchmarks. In particular, OpenCUA-32B achieves an average success rate of 34.8% on OSWorld-Verified, establishing a new state-of-the-art (SOTA) among open-source models and surpassing OpenAI CUA (GPT-4o). Further analysis confirms that our approach generalizes well across domains and benefits significantly from increased test-time computation. We release our annotation tool, datasets, code, and models to build open foundations for further CUA research.
PDF312August 13, 2025