ColorAgent: Het bouwen van een robuuste, gepersonaliseerde en interactieve OS-agent

Samenvatting

Met de vooruitgang in hardware, software en grote taalmodellen is de interactie tussen mensen en besturingssystemen geëvolueerd van de opdrachtregelinterface naar de snel opkomende AI-agentinteracties. Het bouwen van een besturingssysteem (OS) agent die gebruikersinstructies kan uitvoeren en trouw gebruikerswensen kan volgen, wordt steeds meer een realiteit. In dit technische rapport presenteren we ColorAgent, een OS-agent die is ontworpen voor langdurige, robuuste interacties met de omgeving, terwijl hij ook gepersonaliseerde en proactieve gebruikersinteractie mogelijk maakt. Om langdurige interacties met de omgeving mogelijk te maken, verbeteren we de mogelijkheden van het model door middel van stapsgewijze reinforcement learning en zelf-evoluerende training, terwijl we ook een op maat gemaakt multi-agent framework ontwikkelen dat algemeenheid, consistentie en robuustheid garandeert. Wat betreft gebruikersinteractie onderzoeken we gepersonaliseerde herkenning van gebruikersintenties en proactieve betrokkenheid, waardoor de OS-agent niet slechts een automatiseringsinstrument is, maar een warme, collaboratieve partner. We evalueren ColorAgent op de AndroidWorld- en AndroidLab-benchmarks, waarbij we succespercentages van respectievelijk 77,2% en 50,7% behalen, wat een nieuwe standaard zet. Desalniettemin merken we op dat de huidige benchmarks onvoldoende zijn voor een uitgebreide evaluatie van OS-agenten en stellen we voor om in toekomstig werk verdere onderzoeksrichtingen te verkennen, met name op het gebied van evaluatieparadigma's, agent-samenwerking en beveiliging. Onze code is beschikbaar op https://github.com/MadeAgents/mobile-use.

English

With the advancements in hardware, software, and large language model technologies, the interaction between humans and operating systems has evolved from the command-line interface to the rapidly emerging AI agent interactions. Building an operating system (OS) agent capable of executing user instructions and faithfully following user desires is becoming a reality. In this technical report, we present ColorAgent, an OS agent designed to engage in long-horizon, robust interactions with the environment while also enabling personalized and proactive user interaction. To enable long-horizon interactions with the environment, we enhance the model's capabilities through step-wise reinforcement learning and self-evolving training, while also developing a tailored multi-agent framework that ensures generality, consistency, and robustness. In terms of user interaction, we explore personalized user intent recognition and proactive engagement, positioning the OS agent not merely as an automation tool but as a warm, collaborative partner. We evaluate ColorAgent on the AndroidWorld and AndroidLab benchmarks, achieving success rates of 77.2% and 50.7%, respectively, establishing a new state of the art. Nonetheless, we note that current benchmarks are insufficient for a comprehensive evaluation of OS agents and propose further exploring directions in future work, particularly in the areas of evaluation paradigms, agent collaboration, and security. Our code is available at https://github.com/MadeAgents/mobile-use.

ColorAgent: Het bouwen van een robuuste, gepersonaliseerde en interactieve OS-agent

ColorAgent: Building A Robust, Personalized, and Interactive OS Agent

Samenvatting

Support