OpenCUA: 컴퓨터 사용 에이전트를 위한 개방형 기반
OpenCUA: Open Foundations for Computer-Use Agents
August 12, 2025
저자: Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, Jiaqi Deng, Xiaole Guo, Yiheng Xu, Chen Henry Wu, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Peihang Li, Fangyu Lei, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Jiarui Hu, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu
cs.AI
초록
비전-언어 모델은 다양한 컴퓨터 작업을 자동화할 수 있는 컴퓨터 사용 에이전트(CUA)로서 인상적인 능력을 입증해 왔다. 이러한 모델의 상업적 잠재력이 커짐에 따라, 가장 강력한 CUA 시스템의 중요한 세부 사항은 여전히 공개되지 않고 있다. 이러한 에이전트가 점점 더 디지털 상호작용을 중재하고 우리를 대신하여 중대한 결정을 실행할 것으로 예상됨에 따라, 연구 커뮤니티는 CUA의 능력, 한계 및 위험을 연구하기 위해 공개된 CUA 프레임워크에 접근할 필요가 있다. 이러한 격차를 해소하기 위해, 우리는 CUA 데이터와 기초 모델을 확장하기 위한 포괄적인 오픈소스 프레임워크인 OpenCUA를 제안한다. 우리의 프레임워크는 다음과 같이 구성된다: (1) 인간의 컴퓨터 사용 데모를 원활하게 캡처하는 주석 인프라; (2) 3개의 운영 체제와 200개 이상의 애플리케이션 및 웹사이트를 아우르는 첫 번째 대규모 컴퓨터 사용 작업 데이터셋인 AgentNet; (3) 데모를 상태-행동 쌍으로 변환하고 데이터 규모가 커짐에 따라 견고한 성능 향상을 유지하는 반사적 장기 사고 연쇄(Chain-of-Thought) 추론을 포함하는 확장 가능한 파이프라인. 우리의 종단 간 에이전트 모델은 CUA 벤치마크 전반에서 강력한 성능을 보여준다. 특히, OpenCUA-32B는 OSWorld-Verified에서 평균 34.8%의 성공률을 달성하여 오픈소스 모델 중 새로운 최첨단(SOTA)을 수립하고 OpenAI CUA(GPT-4o)를 능가한다. 추가 분석은 우리의 접근 방식이 다양한 도메인에서 잘 일반화되며 테스트 시간 계산이 증가함에 따라 상당한 이점을 얻는다는 것을 확인한다. 우리는 주석 도구, 데이터셋, 코드 및 모델을 공개하여 추가 CUA 연구를 위한 개방형 기반을 구축한다.
English
Vision-language models have demonstrated impressive capabilities as
computer-use agents (CUAs) capable of automating diverse computer tasks. As
their commercial potential grows, critical details of the most capable CUA
systems remain closed. As these agents will increasingly mediate digital
interactions and execute consequential decisions on our behalf, the research
community needs access to open CUA frameworks to study their capabilities,
limitations, and risks. To bridge this gap, we propose OpenCUA, a comprehensive
open-source framework for scaling CUA data and foundation models. Our framework
consists of: (1) an annotation infrastructure that seamlessly captures human
computer-use demonstrations; (2) AgentNet, the first large-scale computer-use
task dataset spanning 3 operating systems and 200+ applications and websites;
(3) a scalable pipeline that transforms demonstrations into state-action pairs
with reflective long Chain-of-Thought reasoning that sustain robust performance
gains as data scales. Our end-to-end agent models demonstrate strong
performance across CUA benchmarks. In particular, OpenCUA-32B achieves an
average success rate of 34.8% on OSWorld-Verified, establishing a new
state-of-the-art (SOTA) among open-source models and surpassing OpenAI CUA
(GPT-4o). Further analysis confirms that our approach generalizes well across
domains and benefits significantly from increased test-time computation. We
release our annotation tool, datasets, code, and models to build open
foundations for further CUA research.