Lernen im Einsatz: Ein erfahrungsgetriebener, sich selbst weiterentwickelnder Agent für langfristige Aufgaben
Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks
October 9, 2025
papers.authors: Cheng Yang, Xuemeng Yang, Licheng Wen, Daocheng Fu, Jianbiao Mei, Rong Wu, Pinlong Cai, Yufan Shen, Nianchen Deng, Botian Shi, Yu Qiao, Haifeng Li
cs.AI
papers.abstract
Große Sprachmodelle haben bemerkenswerte Fähigkeiten in verschiedenen Domänen gezeigt, doch bestehen erhebliche Herausforderungen bei ihrem Einsatz als KI-Agenten für langfristige Aufgaben in der realen Welt. Bestehende LLM-Agenten leiden unter einer kritischen Einschränkung: Sie sind statisch zur Testzeit und können nicht aus Erfahrungen lernen, da ihnen die Fähigkeit fehlt, Wissen anzusammeln und sich kontinuierlich im Einsatz zu verbessern. Um diese Herausforderung zu bewältigen, schlagen wir MUSE vor, ein neuartiges Agenten-Framework, das ein erfahrungsgetriebenes, sich selbst weiterentwickelndes System einführt, das um ein hierarchisches Speichermodul zentriert ist. MUSE organisiert verschiedene Ebenen von Erfahrungen und nutzt diese, um langfristige Aufgaben über mehrere Anwendungen hinweg zu planen und auszuführen. Nach jeder Ausführung einer Teilaufgabe reflektiert der Agent autonom seinen Verlauf, wandelt den roten Verlauf in strukturierte Erfahrungen um und integriert diese zurück in das Speichermodul. Dieser Mechanismus ermöglicht es dem Agenten, sich über seine statischen vortrainierten Parameter hinaus weiterzuentwickeln, wodurch kontinuierliches Lernen und Selbstentwicklung gefördert werden. Wir evaluieren MUSE auf dem langfristigen Produktivitäts-Benchmark TAC. Es erreicht eine neue Spitzenleistung mit einem signifikanten Vorsprung unter Verwendung eines leichten Gemini-2.5-Flash-Modells. Umfangreiche Experimente zeigen, dass der Agent mit zunehmender autonomer Erfahrungsanhäufung überlegenere Fähigkeiten zur Aufgabenbewältigung sowie robuste kontinuierliche Lern- und Selbstentwicklungsfähigkeiten aufweist. Darüber hinaus weisen die gesammelten Erfahrungen von MUSE starke Generalisierungseigenschaften auf, die eine Null-Shot-Verbesserung bei neuen Aufgaben ermöglichen. MUSE etabliert ein neues Paradigma für KI-Agenten, die in der Lage sind, Produktivitätsaufgaben in der realen Welt zu automatisieren.
English
Large Language Models have demonstrated remarkable capabilities across
diverse domains, yet significant challenges persist when deploying them as AI
agents for real-world long-horizon tasks. Existing LLM agents suffer from a
critical limitation: they are test-time static and cannot learn from
experience, lacking the ability to accumulate knowledge and continuously
improve on the job. To address this challenge, we propose MUSE, a novel agent
framework that introduces an experience-driven, self-evolving system centered
around a hierarchical Memory Module. MUSE organizes diverse levels of
experience and leverages them to plan and execute long-horizon tasks across
multiple applications. After each sub-task execution, the agent autonomously
reflects on its trajectory, converting the raw trajectory into structured
experience and integrating it back into the Memory Module. This mechanism
enables the agent to evolve beyond its static pretrained parameters, fostering
continuous learning and self-evolution. We evaluate MUSE on the long-horizon
productivity benchmark TAC. It achieves new SOTA performance by a significant
margin using only a lightweight Gemini-2.5 Flash model. Sufficient Experiments
demonstrate that as the agent autonomously accumulates experience, it exhibits
increasingly superior task completion capabilities, as well as robust
continuous learning and self-evolution capabilities. Moreover, the accumulated
experience from MUSE exhibits strong generalization properties, enabling
zero-shot improvement on new tasks. MUSE establishes a new paradigm for AI
agents capable of real-world productivity task automation.