ChatPaper.aiChatPaper

OpenCUA: Открытые основы для агентов компьютерного использования

OpenCUA: Open Foundations for Computer-Use Agents

August 12, 2025
Авторы: Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, Jiaqi Deng, Xiaole Guo, Yiheng Xu, Chen Henry Wu, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Peihang Li, Fangyu Lei, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Jiarui Hu, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu
cs.AI

Аннотация

Модели, объединяющие зрение и язык, продемонстрировали впечатляющие возможности в качестве агентов компьютерного использования (CUA), способных автоматизировать разнообразные задачи на компьютере. По мере роста их коммерческого потенциала ключевые детали наиболее мощных систем CUA остаются закрытыми. Поскольку эти агенты будут всё чаще опосредовать цифровые взаимодействия и принимать важные решения от нашего имени, исследовательскому сообществу необходим доступ к открытым фреймворкам CUA для изучения их возможностей, ограничений и рисков. Чтобы устранить этот пробел, мы предлагаем OpenCUA — всеобъемлющий фреймворк с открытым исходным кодом для масштабирования данных и базовых моделей CUA. Наш фреймворк включает: (1) инфраструктуру аннотирования, которая легко фиксирует демонстрации использования компьютера человеком; (2) AgentNet, первый крупномасштабный набор данных задач компьютерного использования, охватывающий 3 операционные системы и более 200 приложений и веб-сайтов; (3) масштабируемый конвейер, преобразующий демонстрации в пары "состояние-действие" с рефлексивным длинным цепочечным рассуждением (Chain-of-Thought), что обеспечивает устойчивый рост производительности по мере увеличения объёма данных. Наши сквозные модели агентов демонстрируют высокую производительность на бенчмарках CUA. В частности, OpenCUA-32B достигает среднего уровня успешности 34,8% на OSWorld-Verified, устанавливая новый рекорд (SOTA) среди моделей с открытым исходным кодом и превосходя OpenAI CUA (GPT-4o). Дополнительный анализ подтверждает, что наш подход хорошо обобщается на различные области и значительно выигрывает от увеличения вычислительных ресурсов на этапе тестирования. Мы публикуем наш инструмент аннотирования, наборы данных, код и модели, чтобы заложить открытые основы для дальнейших исследований CUA.
English
Vision-language models have demonstrated impressive capabilities as computer-use agents (CUAs) capable of automating diverse computer tasks. As their commercial potential grows, critical details of the most capable CUA systems remain closed. As these agents will increasingly mediate digital interactions and execute consequential decisions on our behalf, the research community needs access to open CUA frameworks to study their capabilities, limitations, and risks. To bridge this gap, we propose OpenCUA, a comprehensive open-source framework for scaling CUA data and foundation models. Our framework consists of: (1) an annotation infrastructure that seamlessly captures human computer-use demonstrations; (2) AgentNet, the first large-scale computer-use task dataset spanning 3 operating systems and 200+ applications and websites; (3) a scalable pipeline that transforms demonstrations into state-action pairs with reflective long Chain-of-Thought reasoning that sustain robust performance gains as data scales. Our end-to-end agent models demonstrate strong performance across CUA benchmarks. In particular, OpenCUA-32B achieves an average success rate of 34.8% on OSWorld-Verified, establishing a new state-of-the-art (SOTA) among open-source models and surpassing OpenAI CUA (GPT-4o). Further analysis confirms that our approach generalizes well across domains and benefits significantly from increased test-time computation. We release our annotation tool, datasets, code, and models to build open foundations for further CUA research.
PDF212August 13, 2025