ColorAgent: Construyendo un Agente de Sistema Operativo Robusto, Personalizado e Interactivo

Resumen

Con los avances en hardware, software y tecnologías de modelos de lenguaje de gran escala, la interacción entre los humanos y los sistemas operativos ha evolucionado desde la interfaz de línea de comandos hasta las interacciones emergentes con agentes de IA. Construir un agente de sistema operativo (SO) capaz de ejecutar instrucciones del usuario y seguir fielmente sus deseos se está convirtiendo en una realidad. En este informe técnico, presentamos ColorAgent, un agente de SO diseñado para interactuar de manera robusta y a largo plazo con el entorno, al mismo tiempo que permite una interacción personalizada y proactiva con el usuario. Para habilitar interacciones a largo plazo con el entorno, mejoramos las capacidades del modelo mediante aprendizaje por refuerzo paso a paso y entrenamiento auto-evolutivo, además de desarrollar un marco de trabajo multiagente personalizado que garantiza generalidad, consistencia y robustez. En cuanto a la interacción con el usuario, exploramos el reconocimiento personalizado de intenciones del usuario y el compromiso proactivo, posicionando al agente de SO no solo como una herramienta de automatización, sino como un compañero colaborativo y cercano. Evaluamos ColorAgent en los puntos de referencia AndroidWorld y AndroidLab, logrando tasas de éxito del 77.2% y 50.7%, respectivamente, estableciendo un nuevo estado del arte. Sin embargo, observamos que los puntos de referencia actuales son insuficientes para una evaluación integral de los agentes de SO y proponemos explorar direcciones futuras en el trabajo, particularmente en las áreas de paradigmas de evaluación, colaboración entre agentes y seguridad. Nuestro código está disponible en https://github.com/MadeAgents/mobile-use.

English

With the advancements in hardware, software, and large language model technologies, the interaction between humans and operating systems has evolved from the command-line interface to the rapidly emerging AI agent interactions. Building an operating system (OS) agent capable of executing user instructions and faithfully following user desires is becoming a reality. In this technical report, we present ColorAgent, an OS agent designed to engage in long-horizon, robust interactions with the environment while also enabling personalized and proactive user interaction. To enable long-horizon interactions with the environment, we enhance the model's capabilities through step-wise reinforcement learning and self-evolving training, while also developing a tailored multi-agent framework that ensures generality, consistency, and robustness. In terms of user interaction, we explore personalized user intent recognition and proactive engagement, positioning the OS agent not merely as an automation tool but as a warm, collaborative partner. We evaluate ColorAgent on the AndroidWorld and AndroidLab benchmarks, achieving success rates of 77.2% and 50.7%, respectively, establishing a new state of the art. Nonetheless, we note that current benchmarks are insufficient for a comprehensive evaluation of OS agents and propose further exploring directions in future work, particularly in the areas of evaluation paradigms, agent collaboration, and security. Our code is available at https://github.com/MadeAgents/mobile-use.

ColorAgent: Construyendo un Agente de Sistema Operativo Robusto, Personalizado e Interactivo

ColorAgent: Building A Robust, Personalized, and Interactive OS Agent

Resumen

Support