ChatPaper.aiChatPaper

OpenCUA: Fondamenti Aperti per Agenti di Utilizzo Informatico

OpenCUA: Open Foundations for Computer-Use Agents

August 12, 2025
Autori: Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, Jiaqi Deng, Xiaole Guo, Yiheng Xu, Chen Henry Wu, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Peihang Li, Fangyu Lei, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Jiarui Hu, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu
cs.AI

Abstract

I modelli visione-linguaggio hanno dimostrato capacità impressionanti come agenti per l'uso del computer (CUA) in grado di automatizzare una vasta gamma di attività informatiche. Con il crescente potenziale commerciale, i dettagli critici dei sistemi CUA più avanzati rimangono chiusi. Poiché questi agenti medieranno sempre più le interazioni digitali e prenderanno decisioni rilevanti per nostro conto, la comunità di ricerca ha bisogno di accesso a framework CUA aperti per studiarne le capacità, i limiti e i rischi. Per colmare questa lacuna, proponiamo OpenCUA, un framework open-source completo per scalare dati e modelli di base CUA. Il nostro framework consiste in: (1) un'infrastruttura di annotazione che cattura in modo fluido le dimostrazioni umane di utilizzo del computer; (2) AgentNet, il primo dataset su larga scala di attività di utilizzo del computer che copre 3 sistemi operativi e oltre 200 applicazioni e siti web; (3) una pipeline scalabile che trasforma le dimostrazioni in coppie stato-azione con ragionamenti riflessivi a lunga catena di pensiero (Chain-of-Thought) che mantengono robusti guadagni di prestazioni con l'aumento dei dati. I nostri modelli di agenti end-to-end dimostrano prestazioni solide su benchmark CUA. In particolare, OpenCUA-32B raggiunge un tasso di successo medio del 34,8% su OSWorld-Verified, stabilendo un nuovo stato dell'arte (SOTA) tra i modelli open-source e superando OpenAI CUA (GPT-4o). Ulteriori analisi confermano che il nostro approccio generalizza bene tra i domini e beneficia significativamente di un aumento del calcolo al momento del test. Rilasciamo il nostro strumento di annotazione, dataset, codice e modelli per costruire basi aperte per ulteriori ricerche su CUA.
English
Vision-language models have demonstrated impressive capabilities as computer-use agents (CUAs) capable of automating diverse computer tasks. As their commercial potential grows, critical details of the most capable CUA systems remain closed. As these agents will increasingly mediate digital interactions and execute consequential decisions on our behalf, the research community needs access to open CUA frameworks to study their capabilities, limitations, and risks. To bridge this gap, we propose OpenCUA, a comprehensive open-source framework for scaling CUA data and foundation models. Our framework consists of: (1) an annotation infrastructure that seamlessly captures human computer-use demonstrations; (2) AgentNet, the first large-scale computer-use task dataset spanning 3 operating systems and 200+ applications and websites; (3) a scalable pipeline that transforms demonstrations into state-action pairs with reflective long Chain-of-Thought reasoning that sustain robust performance gains as data scales. Our end-to-end agent models demonstrate strong performance across CUA benchmarks. In particular, OpenCUA-32B achieves an average success rate of 34.8% on OSWorld-Verified, establishing a new state-of-the-art (SOTA) among open-source models and surpassing OpenAI CUA (GPT-4o). Further analysis confirms that our approach generalizes well across domains and benefits significantly from increased test-time computation. We release our annotation tool, datasets, code, and models to build open foundations for further CUA research.
PDF312August 13, 2025