ChatPaper.aiChatPaper

ColorAgent : Développement d'un agent de système d'exploitation robuste, personnalisé et interactif

ColorAgent: Building A Robust, Personalized, and Interactive OS Agent

October 22, 2025
papers.authors: Ning Li, Qiqiang Lin, Zheng Wu, Xiaoyun Mo, Weiming Zhang, Yin Zhao, Xiangmou Qu, Jiamu Zhou, Jun Wang, Congmin Zheng, Yuanyi Song, Hongjiang Chen, Heyuan Huang, Jihong Wang, Jiaxin Yin, Jingwei Yu, Junwei Liao, Qiuying Peng, Xingyu Lou, Jun Wang, Weiwen Liu, Zhuosheng Zhang, Weinan Zhang
cs.AI

papers.abstract

Avec les avancées en matière de matériel, de logiciels et de technologies de modèles de langage à grande échelle, l'interaction entre les humains et les systèmes d'exploitation a évolué de l'interface en ligne de commande vers les interactions émergentes avec des agents d'intelligence artificielle. La création d'un agent de système d'exploitation (OS) capable d'exécuter les instructions des utilisateurs et de suivre fidèlement leurs désirs devient une réalité. Dans ce rapport technique, nous présentons ColorAgent, un agent OS conçu pour interagir de manière robuste et à long terme avec l'environnement, tout en permettant une interaction personnalisée et proactive avec l'utilisateur. Pour permettre des interactions à long terme avec l'environnement, nous améliorons les capacités du modèle grâce à un apprentissage par renforcement étape par étape et à un entraînement auto-évolutif, tout en développant un cadre multi-agent sur mesure qui assure la généralité, la cohérence et la robustesse. En ce qui concerne l'interaction utilisateur, nous explorons la reconnaissance personnalisée des intentions de l'utilisateur et l'engagement proactif, positionnant l'agent OS non seulement comme un outil d'automatisation, mais aussi comme un partenaire collaboratif et chaleureux. Nous évaluons ColorAgent sur les benchmarks AndroidWorld et AndroidLab, obtenant des taux de réussite de 77,2 % et 50,7 %, respectivement, établissant ainsi un nouvel état de l'art. Néanmoins, nous notons que les benchmarks actuels sont insuffisants pour une évaluation complète des agents OS et proposons d'explorer davantage les directions futures, en particulier dans les domaines des paradigmes d'évaluation, de la collaboration entre agents et de la sécurité. Notre code est disponible à l'adresse suivante : https://github.com/MadeAgents/mobile-use.
English
With the advancements in hardware, software, and large language model technologies, the interaction between humans and operating systems has evolved from the command-line interface to the rapidly emerging AI agent interactions. Building an operating system (OS) agent capable of executing user instructions and faithfully following user desires is becoming a reality. In this technical report, we present ColorAgent, an OS agent designed to engage in long-horizon, robust interactions with the environment while also enabling personalized and proactive user interaction. To enable long-horizon interactions with the environment, we enhance the model's capabilities through step-wise reinforcement learning and self-evolving training, while also developing a tailored multi-agent framework that ensures generality, consistency, and robustness. In terms of user interaction, we explore personalized user intent recognition and proactive engagement, positioning the OS agent not merely as an automation tool but as a warm, collaborative partner. We evaluate ColorAgent on the AndroidWorld and AndroidLab benchmarks, achieving success rates of 77.2% and 50.7%, respectively, establishing a new state of the art. Nonetheless, we note that current benchmarks are insufficient for a comprehensive evaluation of OS agents and propose further exploring directions in future work, particularly in the areas of evaluation paradigms, agent collaboration, and security. Our code is available at https://github.com/MadeAgents/mobile-use.
PDF41October 23, 2025