ColorAgent: Construindo um Agente de Sistema Operacional Robusto, Personalizado e Interativo
ColorAgent: Building A Robust, Personalized, and Interactive OS Agent
October 22, 2025
Autores: Ning Li, Qiqiang Lin, Zheng Wu, Xiaoyun Mo, Weiming Zhang, Yin Zhao, Xiangmou Qu, Jiamu Zhou, Jun Wang, Congmin Zheng, Yuanyi Song, Hongjiang Chen, Heyuan Huang, Jihong Wang, Jiaxin Yin, Jingwei Yu, Junwei Liao, Qiuying Peng, Xingyu Lou, Jun Wang, Weiwen Liu, Zhuosheng Zhang, Weinan Zhang
cs.AI
Resumo
Com os avanços em hardware, software e tecnologias de modelos de linguagem de grande escala, a interação entre humanos e sistemas operacionais evoluiu da interface de linha de comando para as interações emergentes com agentes de IA. Construir um agente de sistema operacional (SO) capaz de executar instruções do usuário e seguir fielmente seus desejos está se tornando uma realidade. Neste relatório técnico, apresentamos o ColorAgent, um agente de SO projetado para interações de longo prazo e robustas com o ambiente, além de permitir interações personalizadas e proativas com o usuário. Para habilitar interações de longo prazo com o ambiente, aprimoramos as capacidades do modelo por meio de aprendizado por reforço passo a passo e treinamento auto-evolutivo, ao mesmo tempo em que desenvolvemos uma estrutura de multiagentes personalizada que garante generalidade, consistência e robustez. Em termos de interação com o usuário, exploramos o reconhecimento personalizado de intenções e o engajamento proativo, posicionando o agente de SO não apenas como uma ferramenta de automação, mas como um parceiro colaborativo e acolhedor. Avaliamos o ColorAgent nos benchmarks AndroidWorld e AndroidLab, alcançando taxas de sucesso de 77,2% e 50,7%, respectivamente, estabelecendo um novo estado da arte. No entanto, observamos que os benchmarks atuais são insuficientes para uma avaliação abrangente de agentes de SO e propomos explorar direções futuras, particularmente nas áreas de paradigmas de avaliação, colaboração entre agentes e segurança. Nosso código está disponível em https://github.com/MadeAgents/mobile-use.
English
With the advancements in hardware, software, and large language model
technologies, the interaction between humans and operating systems has evolved
from the command-line interface to the rapidly emerging AI agent interactions.
Building an operating system (OS) agent capable of executing user instructions
and faithfully following user desires is becoming a reality. In this technical
report, we present ColorAgent, an OS agent designed to engage in long-horizon,
robust interactions with the environment while also enabling personalized and
proactive user interaction. To enable long-horizon interactions with the
environment, we enhance the model's capabilities through step-wise
reinforcement learning and self-evolving training, while also developing a
tailored multi-agent framework that ensures generality, consistency, and
robustness. In terms of user interaction, we explore personalized user intent
recognition and proactive engagement, positioning the OS agent not merely as an
automation tool but as a warm, collaborative partner. We evaluate ColorAgent on
the AndroidWorld and AndroidLab benchmarks, achieving success rates of 77.2%
and 50.7%, respectively, establishing a new state of the art. Nonetheless, we
note that current benchmarks are insufficient for a comprehensive evaluation of
OS agents and propose further exploring directions in future work, particularly
in the areas of evaluation paradigms, agent collaboration, and security. Our
code is available at https://github.com/MadeAgents/mobile-use.