OpenCUA: Fundamentos Abiertos para Agentes de Uso Informático

Resumen

Los modelos de visión-lenguaje han demostrado capacidades impresionantes como agentes de uso informático (CUA, por sus siglas en inglés) capaces de automatizar diversas tareas en computadoras. A medida que su potencial comercial crece, los detalles críticos de los sistemas CUA más avanzados permanecen cerrados. Dado que estos agentes mediarán cada vez más las interacciones digitales y ejecutarán decisiones importantes en nuestro nombre, la comunidad de investigación necesita acceso a marcos CUA abiertos para estudiar sus capacidades, limitaciones y riesgos. Para cerrar esta brecha, proponemos OpenCUA, un marco integral de código abierto para escalar datos y modelos base de CUA. Nuestro marco consta de: (1) una infraestructura de anotación que captura de manera fluida demostraciones de uso informático humano; (2) AgentNet, el primer conjunto de datos a gran escala de tareas de uso informático que abarca 3 sistemas operativos y más de 200 aplicaciones y sitios web; (3) una canalización escalable que transforma demostraciones en pares estado-acción con razonamiento reflexivo de Cadena de Pensamiento (Chain-of-Thought) que sostiene ganancias robustas de rendimiento a medida que los datos escalan. Nuestros modelos de agentes de extremo a extremo demuestran un rendimiento sólido en los puntos de referencia de CUA. En particular, OpenCUA-32B logra una tasa de éxito promedio del 34.8% en OSWorld-Verified, estableciendo un nuevo estado del arte (SOTA) entre los modelos de código abierto y superando al CUA de OpenAI (GPT-4o). Un análisis adicional confirma que nuestro enfoque generaliza bien en diversos dominios y se beneficia significativamente de un mayor cómputo en tiempo de prueba. Publicamos nuestra herramienta de anotación, conjuntos de datos, código y modelos para construir bases abiertas para futuras investigaciones en CUA.

English

Vision-language models have demonstrated impressive capabilities as computer-use agents (CUAs) capable of automating diverse computer tasks. As their commercial potential grows, critical details of the most capable CUA systems remain closed. As these agents will increasingly mediate digital interactions and execute consequential decisions on our behalf, the research community needs access to open CUA frameworks to study their capabilities, limitations, and risks. To bridge this gap, we propose OpenCUA, a comprehensive open-source framework for scaling CUA data and foundation models. Our framework consists of: (1) an annotation infrastructure that seamlessly captures human computer-use demonstrations; (2) AgentNet, the first large-scale computer-use task dataset spanning 3 operating systems and 200+ applications and websites; (3) a scalable pipeline that transforms demonstrations into state-action pairs with reflective long Chain-of-Thought reasoning that sustain robust performance gains as data scales. Our end-to-end agent models demonstrate strong performance across CUA benchmarks. In particular, OpenCUA-32B achieves an average success rate of 34.8% on OSWorld-Verified, establishing a new state-of-the-art (SOTA) among open-source models and surpassing OpenAI CUA (GPT-4o). Further analysis confirms that our approach generalizes well across domains and benefits significantly from increased test-time computation. We release our annotation tool, datasets, code, and models to build open foundations for further CUA research.