Apprentissage en situation : Un agent auto-évolutif piloté par l'expérience pour des tâches à long horizon

papers.abstract

Les grands modèles de langage ont démontré des capacités remarquables dans divers domaines, mais des défis importants persistent lors de leur déploiement en tant qu'agents d'IA pour des tâches à long terme dans le monde réel. Les agents LLM existants souffrent d'une limitation critique : ils sont statiques au moment du test et ne peuvent pas apprendre de l'expérience, manquant ainsi de la capacité à accumuler des connaissances et à s'améliorer continuellement en cours de travail. Pour relever ce défi, nous proposons MUSE, un nouveau cadre d'agent qui introduit un système évolutif et piloté par l'expérience, centré autour d'un module de mémoire hiérarchique. MUSE organise divers niveaux d'expérience et les exploite pour planifier et exécuter des tâches à long terme dans de multiples applications. Après chaque exécution de sous-tâche, l'agent réfléchit de manière autonome à sa trajectoire, convertissant la trajectoire brute en expérience structurée et l'intégrant dans le module de mémoire. Ce mécanisme permet à l'agent d'évoluer au-delà de ses paramètres prédéfinis statiques, favorisant un apprentissage continu et une auto-évolution. Nous évaluons MUSE sur le benchmark de productivité à long terme TAC. Il atteint de nouvelles performances de pointe avec une marge significative en utilisant uniquement un modèle léger Gemini-2.5 Flash. Des expériences approfondies démontrent qu'à mesure que l'agent accumule de l'expérience de manière autonome, il présente des capacités de réalisation de tâches de plus en plus supérieures, ainsi que des capacités robustes d'apprentissage continu et d'auto-évolution. De plus, l'expérience accumulée par MUSE présente de fortes propriétés de généralisation, permettant une amélioration en zero-shot sur de nouvelles tâches. MUSE établit un nouveau paradigme pour les agents d'IA capables d'automatiser des tâches de productivité dans le monde réel.

English

Large Language Models have demonstrated remarkable capabilities across diverse domains, yet significant challenges persist when deploying them as AI agents for real-world long-horizon tasks. Existing LLM agents suffer from a critical limitation: they are test-time static and cannot learn from experience, lacking the ability to accumulate knowledge and continuously improve on the job. To address this challenge, we propose MUSE, a novel agent framework that introduces an experience-driven, self-evolving system centered around a hierarchical Memory Module. MUSE organizes diverse levels of experience and leverages them to plan and execute long-horizon tasks across multiple applications. After each sub-task execution, the agent autonomously reflects on its trajectory, converting the raw trajectory into structured experience and integrating it back into the Memory Module. This mechanism enables the agent to evolve beyond its static pretrained parameters, fostering continuous learning and self-evolution. We evaluate MUSE on the long-horizon productivity benchmark TAC. It achieves new SOTA performance by a significant margin using only a lightweight Gemini-2.5 Flash model. Sufficient Experiments demonstrate that as the agent autonomously accumulates experience, it exhibits increasingly superior task completion capabilities, as well as robust continuous learning and self-evolution capabilities. Moreover, the accumulated experience from MUSE exhibits strong generalization properties, enabling zero-shot improvement on new tasks. MUSE establishes a new paradigm for AI agents capable of real-world productivity task automation.

Apprentissage en situation : Un agent auto-évolutif piloté par l'expérience pour des tâches à long horizon

Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks

papers.abstract

Support