OpenCUA: Fundamentos Abiertos para Agentes de Uso Informático
OpenCUA: Open Foundations for Computer-Use Agents
August 12, 2025
Autores: Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, Jiaqi Deng, Xiaole Guo, Yiheng Xu, Chen Henry Wu, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Peihang Li, Fangyu Lei, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Jiarui Hu, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu
cs.AI
Resumen
Los modelos de visión-lenguaje han demostrado capacidades impresionantes como agentes de uso informático (CUA, por sus siglas en inglés) capaces de automatizar diversas tareas en computadoras. A medida que su potencial comercial crece, los detalles críticos de los sistemas CUA más avanzados permanecen cerrados. Dado que estos agentes mediarán cada vez más las interacciones digitales y ejecutarán decisiones importantes en nuestro nombre, la comunidad de investigación necesita acceso a marcos CUA abiertos para estudiar sus capacidades, limitaciones y riesgos. Para cerrar esta brecha, proponemos OpenCUA, un marco integral de código abierto para escalar datos y modelos base de CUA. Nuestro marco consta de: (1) una infraestructura de anotación que captura de manera fluida demostraciones de uso informático humano; (2) AgentNet, el primer conjunto de datos a gran escala de tareas de uso informático que abarca 3 sistemas operativos y más de 200 aplicaciones y sitios web; (3) una canalización escalable que transforma demostraciones en pares estado-acción con razonamiento reflexivo de Cadena de Pensamiento (Chain-of-Thought) que sostiene ganancias robustas de rendimiento a medida que los datos escalan. Nuestros modelos de agentes de extremo a extremo demuestran un rendimiento sólido en los puntos de referencia de CUA. En particular, OpenCUA-32B logra una tasa de éxito promedio del 34.8% en OSWorld-Verified, estableciendo un nuevo estado del arte (SOTA) entre los modelos de código abierto y superando al CUA de OpenAI (GPT-4o). Un análisis adicional confirma que nuestro enfoque generaliza bien en diversos dominios y se beneficia significativamente de un mayor cómputo en tiempo de prueba. Publicamos nuestra herramienta de anotación, conjuntos de datos, código y modelos para construir bases abiertas para futuras investigaciones en CUA.
English
Vision-language models have demonstrated impressive capabilities as
computer-use agents (CUAs) capable of automating diverse computer tasks. As
their commercial potential grows, critical details of the most capable CUA
systems remain closed. As these agents will increasingly mediate digital
interactions and execute consequential decisions on our behalf, the research
community needs access to open CUA frameworks to study their capabilities,
limitations, and risks. To bridge this gap, we propose OpenCUA, a comprehensive
open-source framework for scaling CUA data and foundation models. Our framework
consists of: (1) an annotation infrastructure that seamlessly captures human
computer-use demonstrations; (2) AgentNet, the first large-scale computer-use
task dataset spanning 3 operating systems and 200+ applications and websites;
(3) a scalable pipeline that transforms demonstrations into state-action pairs
with reflective long Chain-of-Thought reasoning that sustain robust performance
gains as data scales. Our end-to-end agent models demonstrate strong
performance across CUA benchmarks. In particular, OpenCUA-32B achieves an
average success rate of 34.8% on OSWorld-Verified, establishing a new
state-of-the-art (SOTA) among open-source models and surpassing OpenAI CUA
(GPT-4o). Further analysis confirms that our approach generalizes well across
domains and benefits significantly from increased test-time computation. We
release our annotation tool, datasets, code, and models to build open
foundations for further CUA research.