ChatPaper.aiChatPaper

ColorAgent: Entwicklung eines robusten, personalisierten und interaktiven Betriebssystem-Agents

ColorAgent: Building A Robust, Personalized, and Interactive OS Agent

October 22, 2025
papers.authors: Ning Li, Qiqiang Lin, Zheng Wu, Xiaoyun Mo, Weiming Zhang, Yin Zhao, Xiangmou Qu, Jiamu Zhou, Jun Wang, Congmin Zheng, Yuanyi Song, Hongjiang Chen, Heyuan Huang, Jihong Wang, Jiaxin Yin, Jingwei Yu, Junwei Liao, Qiuying Peng, Xingyu Lou, Jun Wang, Weiwen Liu, Zhuosheng Zhang, Weinan Zhang
cs.AI

papers.abstract

Mit den Fortschritten in der Hardware, Software und den Technologien großer Sprachmodelle hat sich die Interaktion zwischen Menschen und Betriebssystemen von der Befehlszeilenschnittstelle hin zu den sich schnell entwickelnden Interaktionen mit KI-Agenten weiterentwickelt. Die Entwicklung eines Betriebssystem-Agenten (OS-Agent), der in der Lage ist, Benutzeranweisungen auszuführen und die Wünsche der Benutzer treu zu befolgen, wird zunehmend Realität. In diesem technischen Bericht stellen wir ColorAgent vor, einen OS-Agenten, der darauf ausgelegt ist, langfristige und robuste Interaktionen mit der Umgebung zu ermöglichen und gleichzeitig personalisierte und proaktive Benutzerinteraktionen zu unterstützen. Um langfristige Interaktionen mit der Umgebung zu ermöglichen, erweitern wir die Fähigkeiten des Modells durch schrittweises Reinforcement Learning und selbstentwickelndes Training, während wir gleichzeitig ein maßgeschneidertes Multi-Agenten-Framework entwickeln, das Allgemeingültigkeit, Konsistenz und Robustheit gewährleistet. Im Hinblick auf die Benutzerinteraktion untersuchen wir die personalisierte Erkennung von Benutzerabsichten und proaktives Engagement, wodurch der OS-Agent nicht nur als Automatisierungswerkzeug, sondern als ein warmer, kooperativer Partner positioniert wird. Wir evaluieren ColorAgent anhand der Benchmarks AndroidWorld und AndroidLab und erreichen Erfolgsquoten von 77,2 % bzw. 50,7 %, wodurch ein neuer Stand der Technik etabliert wird. Dennoch stellen wir fest, dass die derzeitigen Benchmarks für eine umfassende Bewertung von OS-Agenten nicht ausreichend sind und schlagen vor, in zukünftigen Arbeiten insbesondere die Bereiche Evaluationsparadigmen, Agentenkooperation und Sicherheit weiter zu erforschen. Unser Code ist unter https://github.com/MadeAgents/mobile-use verfügbar.
English
With the advancements in hardware, software, and large language model technologies, the interaction between humans and operating systems has evolved from the command-line interface to the rapidly emerging AI agent interactions. Building an operating system (OS) agent capable of executing user instructions and faithfully following user desires is becoming a reality. In this technical report, we present ColorAgent, an OS agent designed to engage in long-horizon, robust interactions with the environment while also enabling personalized and proactive user interaction. To enable long-horizon interactions with the environment, we enhance the model's capabilities through step-wise reinforcement learning and self-evolving training, while also developing a tailored multi-agent framework that ensures generality, consistency, and robustness. In terms of user interaction, we explore personalized user intent recognition and proactive engagement, positioning the OS agent not merely as an automation tool but as a warm, collaborative partner. We evaluate ColorAgent on the AndroidWorld and AndroidLab benchmarks, achieving success rates of 77.2% and 50.7%, respectively, establishing a new state of the art. Nonetheless, we note that current benchmarks are insufficient for a comprehensive evaluation of OS agents and propose further exploring directions in future work, particularly in the areas of evaluation paradigms, agent collaboration, and security. Our code is available at https://github.com/MadeAgents/mobile-use.
PDF41October 23, 2025