Leren op de werkvloer: Een ervaringsgestuurde, zelfontwikkelende agent voor taken met een lange tijdsduur
Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks
October 9, 2025
Auteurs: Cheng Yang, Xuemeng Yang, Licheng Wen, Daocheng Fu, Jianbiao Mei, Rong Wu, Pinlong Cai, Yufan Shen, Nianchen Deng, Botian Shi, Yu Qiao, Haifeng Li
cs.AI
Samenvatting
Grote Taalmodellen hebben opmerkelijke capaciteiten getoond in diverse domeinen, maar er blijven aanzienlijke uitdagingen bestaan bij het inzetten ervan als AI-agenten voor real-world langetermijntaken. Bestaande LLM-agenten kampen met een kritieke beperking: ze zijn statisch tijdens het testen en kunnen niet leren van ervaringen, waardoor ze niet in staat zijn om kennis op te bouwen en zich continu te verbeteren tijdens het werk. Om deze uitdaging aan te pakken, stellen we MUSE voor, een nieuw agentframework dat een ervaringsgestuurd, zelf-evoluerend systeem introduceert, gecentreerd rond een hiërarchische Geheugenmodule. MUSE organiseert diverse niveaus van ervaring en benut deze om langetermijntaken te plannen en uit te voeren in meerdere toepassingen. Na de uitvoering van elke subtaak reflecteert de agent autonoom op zijn traject, waarbij het ruwe traject wordt omgezet in gestructureerde ervaring en teruggeïntegreerd in de Geheugenmodule. Dit mechanisme stelt de agent in staat om zich te ontwikkelen voorbij zijn statische vooraf getrainde parameters, wat continue leren en zelf-evolutie bevordert. We evalueren MUSE op de langetermijnproductiviteitsbenchmark TAC. Het behaalt een nieuwe state-of-the-art (SOTA) prestatie met een aanzienlijke marge, waarbij slechts een lichtgewicht Gemini-2.5 Flash-model wordt gebruikt. Uitgebreide experimenten tonen aan dat naarmate de agent autonoom ervaring opdoet, hij steeds superieure taakuitvoeringscapaciteiten vertoont, evenals robuuste continue leer- en zelf-evolutiecapaciteiten. Bovendien vertoont de opgebouwde ervaring van MUSE sterke generalisatie-eigenschappen, waardoor zero-shot verbetering op nieuwe taken mogelijk wordt. MUSE vestigt een nieuw paradigma voor AI-agenten die in staat zijn tot automatisering van real-world productiviteitstaken.
English
Large Language Models have demonstrated remarkable capabilities across
diverse domains, yet significant challenges persist when deploying them as AI
agents for real-world long-horizon tasks. Existing LLM agents suffer from a
critical limitation: they are test-time static and cannot learn from
experience, lacking the ability to accumulate knowledge and continuously
improve on the job. To address this challenge, we propose MUSE, a novel agent
framework that introduces an experience-driven, self-evolving system centered
around a hierarchical Memory Module. MUSE organizes diverse levels of
experience and leverages them to plan and execute long-horizon tasks across
multiple applications. After each sub-task execution, the agent autonomously
reflects on its trajectory, converting the raw trajectory into structured
experience and integrating it back into the Memory Module. This mechanism
enables the agent to evolve beyond its static pretrained parameters, fostering
continuous learning and self-evolution. We evaluate MUSE on the long-horizon
productivity benchmark TAC. It achieves new SOTA performance by a significant
margin using only a lightweight Gemini-2.5 Flash model. Sufficient Experiments
demonstrate that as the agent autonomously accumulates experience, it exhibits
increasingly superior task completion capabilities, as well as robust
continuous learning and self-evolution capabilities. Moreover, the accumulated
experience from MUSE exhibits strong generalization properties, enabling
zero-shot improvement on new tasks. MUSE establishes a new paradigm for AI
agents capable of real-world productivity task automation.