Leren op de werkvloer: Een ervaringsgestuurde, zelfontwikkelende agent voor taken met een lange tijdsduur

Samenvatting

Grote Taalmodellen hebben opmerkelijke capaciteiten getoond in diverse domeinen, maar er blijven aanzienlijke uitdagingen bestaan bij het inzetten ervan als AI-agenten voor real-world langetermijntaken. Bestaande LLM-agenten kampen met een kritieke beperking: ze zijn statisch tijdens het testen en kunnen niet leren van ervaringen, waardoor ze niet in staat zijn om kennis op te bouwen en zich continu te verbeteren tijdens het werk. Om deze uitdaging aan te pakken, stellen we MUSE voor, een nieuw agentframework dat een ervaringsgestuurd, zelf-evoluerend systeem introduceert, gecentreerd rond een hiërarchische Geheugenmodule. MUSE organiseert diverse niveaus van ervaring en benut deze om langetermijntaken te plannen en uit te voeren in meerdere toepassingen. Na de uitvoering van elke subtaak reflecteert de agent autonoom op zijn traject, waarbij het ruwe traject wordt omgezet in gestructureerde ervaring en teruggeïntegreerd in de Geheugenmodule. Dit mechanisme stelt de agent in staat om zich te ontwikkelen voorbij zijn statische vooraf getrainde parameters, wat continue leren en zelf-evolutie bevordert. We evalueren MUSE op de langetermijnproductiviteitsbenchmark TAC. Het behaalt een nieuwe state-of-the-art (SOTA) prestatie met een aanzienlijke marge, waarbij slechts een lichtgewicht Gemini-2.5 Flash-model wordt gebruikt. Uitgebreide experimenten tonen aan dat naarmate de agent autonoom ervaring opdoet, hij steeds superieure taakuitvoeringscapaciteiten vertoont, evenals robuuste continue leer- en zelf-evolutiecapaciteiten. Bovendien vertoont de opgebouwde ervaring van MUSE sterke generalisatie-eigenschappen, waardoor zero-shot verbetering op nieuwe taken mogelijk wordt. MUSE vestigt een nieuw paradigma voor AI-agenten die in staat zijn tot automatisering van real-world productiviteitstaken.

English

Large Language Models have demonstrated remarkable capabilities across diverse domains, yet significant challenges persist when deploying them as AI agents for real-world long-horizon tasks. Existing LLM agents suffer from a critical limitation: they are test-time static and cannot learn from experience, lacking the ability to accumulate knowledge and continuously improve on the job. To address this challenge, we propose MUSE, a novel agent framework that introduces an experience-driven, self-evolving system centered around a hierarchical Memory Module. MUSE organizes diverse levels of experience and leverages them to plan and execute long-horizon tasks across multiple applications. After each sub-task execution, the agent autonomously reflects on its trajectory, converting the raw trajectory into structured experience and integrating it back into the Memory Module. This mechanism enables the agent to evolve beyond its static pretrained parameters, fostering continuous learning and self-evolution. We evaluate MUSE on the long-horizon productivity benchmark TAC. It achieves new SOTA performance by a significant margin using only a lightweight Gemini-2.5 Flash model. Sufficient Experiments demonstrate that as the agent autonomously accumulates experience, it exhibits increasingly superior task completion capabilities, as well as robust continuous learning and self-evolution capabilities. Moreover, the accumulated experience from MUSE exhibits strong generalization properties, enabling zero-shot improvement on new tasks. MUSE establishes a new paradigm for AI agents capable of real-world productivity task automation.

Leren op de werkvloer: Een ervaringsgestuurde, zelfontwikkelende agent voor taken met een lange tijdsduur

Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks

Samenvatting

Support