ChatPaper.aiChatPaper

OpenCUA: Offene Grundlagen für Computer-Nutzungs-Agenten

OpenCUA: Open Foundations for Computer-Use Agents

August 12, 2025
papers.authors: Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, Jiaqi Deng, Xiaole Guo, Yiheng Xu, Chen Henry Wu, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Peihang Li, Fangyu Lei, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Jiarui Hu, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu
cs.AI

papers.abstract

Vision-Language-Modelle haben beeindruckende Fähigkeiten als Computer-Nutzungs-Agenten (CUAs) bewiesen, die in der Lage sind, diverse Computeraufgaben zu automatisieren. Während ihr kommerzielles Potenzial wächst, bleiben kritische Details der leistungsfähigsten CUA-Systeme geschlossen. Da diese Agenten zunehmend digitale Interaktionen vermitteln und folgenreiche Entscheidungen in unserem Namen ausführen werden, benötigt die Forschungsgemeinschaft Zugang zu offenen CUA-Frameworks, um deren Fähigkeiten, Grenzen und Risiken zu untersuchen. Um diese Lücke zu schließen, schlagen wir OpenCUA vor, ein umfassendes Open-Source-Framework zur Skalierung von CUA-Daten und Foundation-Modellen. Unser Framework besteht aus: (1) einer Annotationsinfrastruktur, die menschliche Computer-Nutzungs-Demonstrationen nahtlos erfasst; (2) AgentNet, dem ersten groß angelegten Computer-Nutzungs-Aufgaben-Datensatz, der 3 Betriebssysteme und über 200 Anwendungen und Websites umfasst; (3) einer skalierbaren Pipeline, die Demonstrationen in Zustand-Aktions-Paare mit reflektierender langkettiger Chain-of-Thought-Argumentation umwandelt, die robuste Leistungssteigerungen bei der Datenskalierung aufrechterhält. Unsere End-to-End-Agentenmodelle zeigen starke Leistungen in CUA-Benchmarks. Insbesondere erreicht OpenCUA-32B eine durchschnittliche Erfolgsrate von 34,8 % auf OSWorld-Verified und setzt damit einen neuen State-of-the-Art (SOTA) unter Open-Source-Modellen, der den OpenAI CUA (GPT-4o) übertrifft. Weitere Analysen bestätigen, dass unser Ansatz gut über verschiedene Domänen hinweg generalisiert und signifikant von erhöhter Testzeit-Berechnung profitiert. Wir veröffentlichen unser Annotationswerkzeug, Datensätze, Code und Modelle, um offene Grundlagen für weitere CUA-Forschung zu schaffen.
English
Vision-language models have demonstrated impressive capabilities as computer-use agents (CUAs) capable of automating diverse computer tasks. As their commercial potential grows, critical details of the most capable CUA systems remain closed. As these agents will increasingly mediate digital interactions and execute consequential decisions on our behalf, the research community needs access to open CUA frameworks to study their capabilities, limitations, and risks. To bridge this gap, we propose OpenCUA, a comprehensive open-source framework for scaling CUA data and foundation models. Our framework consists of: (1) an annotation infrastructure that seamlessly captures human computer-use demonstrations; (2) AgentNet, the first large-scale computer-use task dataset spanning 3 operating systems and 200+ applications and websites; (3) a scalable pipeline that transforms demonstrations into state-action pairs with reflective long Chain-of-Thought reasoning that sustain robust performance gains as data scales. Our end-to-end agent models demonstrate strong performance across CUA benchmarks. In particular, OpenCUA-32B achieves an average success rate of 34.8% on OSWorld-Verified, establishing a new state-of-the-art (SOTA) among open-source models and surpassing OpenAI CUA (GPT-4o). Further analysis confirms that our approach generalizes well across domains and benefits significantly from increased test-time computation. We release our annotation tool, datasets, code, and models to build open foundations for further CUA research.
PDF212August 13, 2025