ColorAgent: Costruire un Agente di Sistema Operativo Robusto, Personalizzato e Interattivo
ColorAgent: Building A Robust, Personalized, and Interactive OS Agent
October 22, 2025
Autori: Ning Li, Qiqiang Lin, Zheng Wu, Xiaoyun Mo, Weiming Zhang, Yin Zhao, Xiangmou Qu, Jiamu Zhou, Jun Wang, Congmin Zheng, Yuanyi Song, Hongjiang Chen, Heyuan Huang, Jihong Wang, Jiaxin Yin, Jingwei Yu, Junwei Liao, Qiuying Peng, Xingyu Lou, Jun Wang, Weiwen Liu, Zhuosheng Zhang, Weinan Zhang
cs.AI
Abstract
Con i progressi nell'hardware, nel software e nelle tecnologie dei modelli linguistici di grandi dimensioni, l'interazione tra esseri umani e sistemi operativi è evoluta dall'interfaccia a riga di comando alle interazioni con agenti di intelligenza artificiale che stanno emergendo rapidamente. Costruire un agente per sistemi operativi (OS) in grado di eseguire le istruzioni dell'utente e seguire fedelmente i desideri dell'utente sta diventando una realtà. In questo rapporto tecnico, presentiamo ColorAgent, un agente OS progettato per interagire in modo robusto e a lungo termine con l'ambiente, consentendo al contempo un'interazione personalizzata e proattiva con l'utente. Per abilitare interazioni a lungo termine con l'ambiente, potenziamo le capacità del modello attraverso l'apprendimento per rinforzo graduale e l'addestramento auto-evolutivo, sviluppando inoltre un framework multi-agente su misura che garantisce generalità, coerenza e robustezza. Per quanto riguarda l'interazione con l'utente, esploriamo il riconoscimento personalizzato delle intenzioni dell'utente e l'engagement proattivo, posizionando l'agente OS non solo come uno strumento di automazione, ma come un partner collaborativo e accogliente. Valutiamo ColorAgent sui benchmark AndroidWorld e AndroidLab, raggiungendo tassi di successo rispettivamente del 77,2% e del 50,7%, stabilendo un nuovo stato dell'arte. Tuttavia, osserviamo che gli attuali benchmark sono insufficienti per una valutazione completa degli agenti OS e proponiamo di esplorare ulteriori direzioni nel lavoro futuro, in particolare nelle aree dei paradigmi di valutazione, della collaborazione tra agenti e della sicurezza. Il nostro codice è disponibile all'indirizzo https://github.com/MadeAgents/mobile-use.
English
With the advancements in hardware, software, and large language model
technologies, the interaction between humans and operating systems has evolved
from the command-line interface to the rapidly emerging AI agent interactions.
Building an operating system (OS) agent capable of executing user instructions
and faithfully following user desires is becoming a reality. In this technical
report, we present ColorAgent, an OS agent designed to engage in long-horizon,
robust interactions with the environment while also enabling personalized and
proactive user interaction. To enable long-horizon interactions with the
environment, we enhance the model's capabilities through step-wise
reinforcement learning and self-evolving training, while also developing a
tailored multi-agent framework that ensures generality, consistency, and
robustness. In terms of user interaction, we explore personalized user intent
recognition and proactive engagement, positioning the OS agent not merely as an
automation tool but as a warm, collaborative partner. We evaluate ColorAgent on
the AndroidWorld and AndroidLab benchmarks, achieving success rates of 77.2%
and 50.7%, respectively, establishing a new state of the art. Nonetheless, we
note that current benchmarks are insufficient for a comprehensive evaluation of
OS agents and propose further exploring directions in future work, particularly
in the areas of evaluation paradigms, agent collaboration, and security. Our
code is available at https://github.com/MadeAgents/mobile-use.