ChatPaper.aiChatPaper

ColorAgent: 강력하고 개인화된 상호작용형 OS 에이전트 구축

ColorAgent: Building A Robust, Personalized, and Interactive OS Agent

October 22, 2025
저자: Ning Li, Qiqiang Lin, Zheng Wu, Xiaoyun Mo, Weiming Zhang, Yin Zhao, Xiangmou Qu, Jiamu Zhou, Jun Wang, Congmin Zheng, Yuanyi Song, Hongjiang Chen, Heyuan Huang, Jihong Wang, Jiaxin Yin, Jingwei Yu, Junwei Liao, Qiuying Peng, Xingyu Lou, Jun Wang, Weiwen Liu, Zhuosheng Zhang, Weinan Zhang
cs.AI

초록

하드웨어, 소프트웨어, 그리고 대규모 언어 모델 기술의 발전으로 인해, 인간과 운영체제 간의 상호작용은 명령줄 인터페이스에서 급속히 부상하는 AI 에이전트 상호작용으로 진화해 왔습니다. 사용자 지시를 실행하고 사용자의 의도를 충실히 따르는 운영체제(OS) 에이전트를 구축하는 것이 현실화되고 있습니다. 본 기술 보고서에서는 장기적이고 견고한 환경 상호작용을 가능하게 하면서도 개인화된 적극적인 사용자 상호작용을 지원하는 OS 에이전트인 ColorAgent를 소개합니다. 장기적인 환경 상호작용을 가능하게 하기 위해, 단계별 강화 학습과 자기 진화 훈련을 통해 모델의 능력을 강화하고, 일반성, 일관성, 견고성을 보장하는 맞춤형 다중 에이전트 프레임워크를 개발했습니다. 사용자 상호작용 측면에서는 개인화된 사용자 의도 인식과 적극적인 참여를 탐구하여, OS 에이전트를 단순한 자동화 도구가 아닌 따뜻한 협력 파트너로 위치시켰습니다. ColorAgent를 AndroidWorld와 AndroidLab 벤치마크에서 평가한 결과, 각각 77.2%와 50.7%의 성공률을 달성하여 새로운 최첨단 기술을 확립했습니다. 그러나 현재의 벤치마크는 OS 에이전트의 포괄적인 평가에 충분하지 않으며, 특히 평가 패러다임, 에이전트 협업, 보안 분야에서의 추가 탐구 방향을 제안합니다. 우리의 코드는 https://github.com/MadeAgents/mobile-use에서 확인할 수 있습니다.
English
With the advancements in hardware, software, and large language model technologies, the interaction between humans and operating systems has evolved from the command-line interface to the rapidly emerging AI agent interactions. Building an operating system (OS) agent capable of executing user instructions and faithfully following user desires is becoming a reality. In this technical report, we present ColorAgent, an OS agent designed to engage in long-horizon, robust interactions with the environment while also enabling personalized and proactive user interaction. To enable long-horizon interactions with the environment, we enhance the model's capabilities through step-wise reinforcement learning and self-evolving training, while also developing a tailored multi-agent framework that ensures generality, consistency, and robustness. In terms of user interaction, we explore personalized user intent recognition and proactive engagement, positioning the OS agent not merely as an automation tool but as a warm, collaborative partner. We evaluate ColorAgent on the AndroidWorld and AndroidLab benchmarks, achieving success rates of 77.2% and 50.7%, respectively, establishing a new state of the art. Nonetheless, we note that current benchmarks are insufficient for a comprehensive evaluation of OS agents and propose further exploring directions in future work, particularly in the areas of evaluation paradigms, agent collaboration, and security. Our code is available at https://github.com/MadeAgents/mobile-use.
PDF41October 23, 2025