OpenCUA : Fondations ouvertes pour les agents informatiques
OpenCUA: Open Foundations for Computer-Use Agents
August 12, 2025
papers.authors: Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, Jiaqi Deng, Xiaole Guo, Yiheng Xu, Chen Henry Wu, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Peihang Li, Fangyu Lei, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Jiarui Hu, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu
cs.AI
papers.abstract
Les modèles vision-langage ont démontré des capacités impressionnantes en tant qu'agents d'utilisation informatique (CUA) capables d'automatiser diverses tâches informatiques. Alors que leur potentiel commercial s'accroît, les détails critiques des systèmes CUA les plus performants restent fermés. Étant donné que ces agents interviendront de plus en plus dans les interactions numériques et prendront des décisions importantes en notre nom, la communauté de recherche a besoin d'accéder à des frameworks CUA ouverts pour étudier leurs capacités, leurs limites et leurs risques. Pour combler cette lacune, nous proposons OpenCUA, un framework open-source complet pour l'évolutivité des données et des modèles de base CUA. Notre framework comprend : (1) une infrastructure d'annotation qui capture de manière fluide les démonstrations d'utilisation informatique par des humains ; (2) AgentNet, le premier jeu de données à grande échelle pour les tâches d'utilisation informatique couvrant 3 systèmes d'exploitation et plus de 200 applications et sites web ; (3) un pipeline évolutif qui transforme les démonstrations en paires état-action avec un raisonnement réflexif en chaîne de pensée (Chain-of-Thought) qui maintient des gains de performance robustes à mesure que les données augmentent. Nos modèles d'agents de bout en bout démontrent de solides performances sur les benchmarks CUA. En particulier, OpenCUA-32B atteint un taux de réussite moyen de 34,8 % sur OSWorld-Verified, établissant un nouvel état de l'art (SOTA) parmi les modèles open-source et surpassant OpenAI CUA (GPT-4o). Une analyse approfondie confirme que notre approche généralise bien à travers les domaines et bénéficie significativement d'une augmentation du temps de calcul lors des tests. Nous publions notre outil d'annotation, les jeux de données, le code et les modèles pour poser des bases ouvertes à la recherche future sur les CUA.
English
Vision-language models have demonstrated impressive capabilities as
computer-use agents (CUAs) capable of automating diverse computer tasks. As
their commercial potential grows, critical details of the most capable CUA
systems remain closed. As these agents will increasingly mediate digital
interactions and execute consequential decisions on our behalf, the research
community needs access to open CUA frameworks to study their capabilities,
limitations, and risks. To bridge this gap, we propose OpenCUA, a comprehensive
open-source framework for scaling CUA data and foundation models. Our framework
consists of: (1) an annotation infrastructure that seamlessly captures human
computer-use demonstrations; (2) AgentNet, the first large-scale computer-use
task dataset spanning 3 operating systems and 200+ applications and websites;
(3) a scalable pipeline that transforms demonstrations into state-action pairs
with reflective long Chain-of-Thought reasoning that sustain robust performance
gains as data scales. Our end-to-end agent models demonstrate strong
performance across CUA benchmarks. In particular, OpenCUA-32B achieves an
average success rate of 34.8% on OSWorld-Verified, establishing a new
state-of-the-art (SOTA) among open-source models and surpassing OpenAI CUA
(GPT-4o). Further analysis confirms that our approach generalizes well across
domains and benefits significantly from increased test-time computation. We
release our annotation tool, datasets, code, and models to build open
foundations for further CUA research.