ColorAgent: Construyendo un Agente de Sistema Operativo Robusto, Personalizado e Interactivo
ColorAgent: Building A Robust, Personalized, and Interactive OS Agent
October 22, 2025
Autores: Ning Li, Qiqiang Lin, Zheng Wu, Xiaoyun Mo, Weiming Zhang, Yin Zhao, Xiangmou Qu, Jiamu Zhou, Jun Wang, Congmin Zheng, Yuanyi Song, Hongjiang Chen, Heyuan Huang, Jihong Wang, Jiaxin Yin, Jingwei Yu, Junwei Liao, Qiuying Peng, Xingyu Lou, Jun Wang, Weiwen Liu, Zhuosheng Zhang, Weinan Zhang
cs.AI
Resumen
Con los avances en hardware, software y tecnologías de modelos de lenguaje de gran escala, la interacción entre los humanos y los sistemas operativos ha evolucionado desde la interfaz de línea de comandos hasta las interacciones emergentes con agentes de IA. Construir un agente de sistema operativo (SO) capaz de ejecutar instrucciones del usuario y seguir fielmente sus deseos se está convirtiendo en una realidad. En este informe técnico, presentamos ColorAgent, un agente de SO diseñado para interactuar de manera robusta y a largo plazo con el entorno, al mismo tiempo que permite una interacción personalizada y proactiva con el usuario. Para habilitar interacciones a largo plazo con el entorno, mejoramos las capacidades del modelo mediante aprendizaje por refuerzo paso a paso y entrenamiento auto-evolutivo, además de desarrollar un marco de trabajo multiagente personalizado que garantiza generalidad, consistencia y robustez. En cuanto a la interacción con el usuario, exploramos el reconocimiento personalizado de intenciones del usuario y el compromiso proactivo, posicionando al agente de SO no solo como una herramienta de automatización, sino como un compañero colaborativo y cercano. Evaluamos ColorAgent en los puntos de referencia AndroidWorld y AndroidLab, logrando tasas de éxito del 77.2% y 50.7%, respectivamente, estableciendo un nuevo estado del arte. Sin embargo, observamos que los puntos de referencia actuales son insuficientes para una evaluación integral de los agentes de SO y proponemos explorar direcciones futuras en el trabajo, particularmente en las áreas de paradigmas de evaluación, colaboración entre agentes y seguridad. Nuestro código está disponible en https://github.com/MadeAgents/mobile-use.
English
With the advancements in hardware, software, and large language model
technologies, the interaction between humans and operating systems has evolved
from the command-line interface to the rapidly emerging AI agent interactions.
Building an operating system (OS) agent capable of executing user instructions
and faithfully following user desires is becoming a reality. In this technical
report, we present ColorAgent, an OS agent designed to engage in long-horizon,
robust interactions with the environment while also enabling personalized and
proactive user interaction. To enable long-horizon interactions with the
environment, we enhance the model's capabilities through step-wise
reinforcement learning and self-evolving training, while also developing a
tailored multi-agent framework that ensures generality, consistency, and
robustness. In terms of user interaction, we explore personalized user intent
recognition and proactive engagement, positioning the OS agent not merely as an
automation tool but as a warm, collaborative partner. We evaluate ColorAgent on
the AndroidWorld and AndroidLab benchmarks, achieving success rates of 77.2%
and 50.7%, respectively, establishing a new state of the art. Nonetheless, we
note that current benchmarks are insufficient for a comprehensive evaluation of
OS agents and propose further exploring directions in future work, particularly
in the areas of evaluation paradigms, agent collaboration, and security. Our
code is available at https://github.com/MadeAgents/mobile-use.