Apprentissage en situation : Un agent auto-évolutif piloté par l'expérience pour des tâches à long horizon
Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks
October 9, 2025
papers.authors: Cheng Yang, Xuemeng Yang, Licheng Wen, Daocheng Fu, Jianbiao Mei, Rong Wu, Pinlong Cai, Yufan Shen, Nianchen Deng, Botian Shi, Yu Qiao, Haifeng Li
cs.AI
papers.abstract
Les grands modèles de langage ont démontré des capacités remarquables dans divers domaines, mais des défis importants persistent lors de leur déploiement en tant qu'agents d'IA pour des tâches à long terme dans le monde réel. Les agents LLM existants souffrent d'une limitation critique : ils sont statiques au moment du test et ne peuvent pas apprendre de l'expérience, manquant ainsi de la capacité à accumuler des connaissances et à s'améliorer continuellement en cours de travail. Pour relever ce défi, nous proposons MUSE, un nouveau cadre d'agent qui introduit un système évolutif et piloté par l'expérience, centré autour d'un module de mémoire hiérarchique. MUSE organise divers niveaux d'expérience et les exploite pour planifier et exécuter des tâches à long terme dans de multiples applications. Après chaque exécution de sous-tâche, l'agent réfléchit de manière autonome à sa trajectoire, convertissant la trajectoire brute en expérience structurée et l'intégrant dans le module de mémoire. Ce mécanisme permet à l'agent d'évoluer au-delà de ses paramètres prédéfinis statiques, favorisant un apprentissage continu et une auto-évolution. Nous évaluons MUSE sur le benchmark de productivité à long terme TAC. Il atteint de nouvelles performances de pointe avec une marge significative en utilisant uniquement un modèle léger Gemini-2.5 Flash. Des expériences approfondies démontrent qu'à mesure que l'agent accumule de l'expérience de manière autonome, il présente des capacités de réalisation de tâches de plus en plus supérieures, ainsi que des capacités robustes d'apprentissage continu et d'auto-évolution. De plus, l'expérience accumulée par MUSE présente de fortes propriétés de généralisation, permettant une amélioration en zero-shot sur de nouvelles tâches. MUSE établit un nouveau paradigme pour les agents d'IA capables d'automatiser des tâches de productivité dans le monde réel.
English
Large Language Models have demonstrated remarkable capabilities across
diverse domains, yet significant challenges persist when deploying them as AI
agents for real-world long-horizon tasks. Existing LLM agents suffer from a
critical limitation: they are test-time static and cannot learn from
experience, lacking the ability to accumulate knowledge and continuously
improve on the job. To address this challenge, we propose MUSE, a novel agent
framework that introduces an experience-driven, self-evolving system centered
around a hierarchical Memory Module. MUSE organizes diverse levels of
experience and leverages them to plan and execute long-horizon tasks across
multiple applications. After each sub-task execution, the agent autonomously
reflects on its trajectory, converting the raw trajectory into structured
experience and integrating it back into the Memory Module. This mechanism
enables the agent to evolve beyond its static pretrained parameters, fostering
continuous learning and self-evolution. We evaluate MUSE on the long-horizon
productivity benchmark TAC. It achieves new SOTA performance by a significant
margin using only a lightweight Gemini-2.5 Flash model. Sufficient Experiments
demonstrate that as the agent autonomously accumulates experience, it exhibits
increasingly superior task completion capabilities, as well as robust
continuous learning and self-evolution capabilities. Moreover, the accumulated
experience from MUSE exhibits strong generalization properties, enabling
zero-shot improvement on new tasks. MUSE establishes a new paradigm for AI
agents capable of real-world productivity task automation.