Aprendiendo en el Trabajo: Un Agente de Auto-Evolución Basado en la Experiencia para Tareas de Horizonte Largo
Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks
October 9, 2025
Autores: Cheng Yang, Xuemeng Yang, Licheng Wen, Daocheng Fu, Jianbiao Mei, Rong Wu, Pinlong Cai, Yufan Shen, Nianchen Deng, Botian Shi, Yu Qiao, Haifeng Li
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLM) han demostrado capacidades notables en diversos dominios, pero persisten desafíos significativos al desplegarlos como agentes de IA para tareas de largo plazo en el mundo real. Los agentes LLM existentes presentan una limitación crítica: son estáticos durante la fase de prueba y no pueden aprender de la experiencia, careciendo de la capacidad para acumular conocimiento y mejorar continuamente en el trabajo. Para abordar este desafío, proponemos MUSE, un marco de agente novedoso que introduce un sistema impulsado por la experiencia y auto-evolutivo centrado en un Módulo de Memoria jerárquico. MUSE organiza diversos niveles de experiencia y los aprovecha para planificar y ejecutar tareas de largo plazo en múltiples aplicaciones. Después de cada ejecución de una subtarea, el agente reflexiona autónomamente sobre su trayectoria, convirtiendo la trayectoria bruta en experiencia estructurada e integrándola de nuevo en el Módulo de Memoria. Este mecanismo permite que el agente evolucione más allá de sus parámetros preentrenados estáticos, fomentando el aprendizaje continuo y la auto-evolución. Evaluamos MUSE en el punto de referencia de productividad de largo plazo TAC, donde logra un nuevo rendimiento de vanguardia por un margen significativo utilizando únicamente un modelo ligero Gemini-2.5 Flash. Experimentos exhaustivos demuestran que, a medida que el agente acumula experiencia de manera autónoma, exhibe capacidades cada vez superiores para completar tareas, así como robustas capacidades de aprendizaje continuo y auto-evolución. Además, la experiencia acumulada por MUSE muestra fuertes propiedades de generalización, permitiendo mejoras de cero disparos en nuevas tareas. MUSE establece un nuevo paradigma para agentes de IA capaces de automatizar tareas de productividad en el mundo real.
English
Large Language Models have demonstrated remarkable capabilities across
diverse domains, yet significant challenges persist when deploying them as AI
agents for real-world long-horizon tasks. Existing LLM agents suffer from a
critical limitation: they are test-time static and cannot learn from
experience, lacking the ability to accumulate knowledge and continuously
improve on the job. To address this challenge, we propose MUSE, a novel agent
framework that introduces an experience-driven, self-evolving system centered
around a hierarchical Memory Module. MUSE organizes diverse levels of
experience and leverages them to plan and execute long-horizon tasks across
multiple applications. After each sub-task execution, the agent autonomously
reflects on its trajectory, converting the raw trajectory into structured
experience and integrating it back into the Memory Module. This mechanism
enables the agent to evolve beyond its static pretrained parameters, fostering
continuous learning and self-evolution. We evaluate MUSE on the long-horizon
productivity benchmark TAC. It achieves new SOTA performance by a significant
margin using only a lightweight Gemini-2.5 Flash model. Sufficient Experiments
demonstrate that as the agent autonomously accumulates experience, it exhibits
increasingly superior task completion capabilities, as well as robust
continuous learning and self-evolution capabilities. Moreover, the accumulated
experience from MUSE exhibits strong generalization properties, enabling
zero-shot improvement on new tasks. MUSE establishes a new paradigm for AI
agents capable of real-world productivity task automation.