Aprendendo no Trabalho: Um Agente Autoevolutivo Baseado em Experiência para Tarefas de Longo Prazo
Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks
October 9, 2025
Autores: Cheng Yang, Xuemeng Yang, Licheng Wen, Daocheng Fu, Jianbiao Mei, Rong Wu, Pinlong Cai, Yufan Shen, Nianchen Deng, Botian Shi, Yu Qiao, Haifeng Li
cs.AI
Resumo
Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis em diversos domínios, mas desafios significativos persistem ao implantá-los como agentes de IA para tarefas de longo prazo no mundo real. Os agentes LLM existentes sofrem de uma limitação crítica: eles são estáticos durante o teste e não conseguem aprender com a experiência, carecendo da capacidade de acumular conhecimento e melhorar continuamente no trabalho. Para enfrentar esse desafio, propomos o MUSE, uma nova estrutura de agente que introduz um sistema autoevolutivo e orientado por experiência, centrado em um Módulo de Memória hierárquico. O MUSE organiza diversos níveis de experiência e os utiliza para planejar e executar tarefas de longo prazo em múltiplas aplicações. Após a execução de cada subtarefa, o agente reflete autonomamente sobre sua trajetória, convertendo a trajetória bruta em experiência estruturada e integrando-a de volta ao Módulo de Memória. Esse mecanismo permite que o agente evolua além de seus parâmetros pré-treinados estáticos, promovendo aprendizado contínuo e autoevolução. Avaliamos o MUSE no benchmark de produtividade de longo prazo TAC. Ele alcança um novo desempenho de estado da arte (SOTA) por uma margem significativa, utilizando apenas um modelo leve Gemini-2.5 Flash. Experimentos suficientes demonstram que, à medida que o agente acumula experiência de forma autônoma, ele exibe capacidades cada vez superiores de conclusão de tarefas, além de robustas capacidades de aprendizado contínuo e autoevolução. Além disso, a experiência acumulada pelo MUSE exibe fortes propriedades de generalização, permitindo melhorias zero-shot em novas tarefas. O MUSE estabelece um novo paradigma para agentes de IA capazes de automatizar tarefas de produtividade no mundo real.
English
Large Language Models have demonstrated remarkable capabilities across
diverse domains, yet significant challenges persist when deploying them as AI
agents for real-world long-horizon tasks. Existing LLM agents suffer from a
critical limitation: they are test-time static and cannot learn from
experience, lacking the ability to accumulate knowledge and continuously
improve on the job. To address this challenge, we propose MUSE, a novel agent
framework that introduces an experience-driven, self-evolving system centered
around a hierarchical Memory Module. MUSE organizes diverse levels of
experience and leverages them to plan and execute long-horizon tasks across
multiple applications. After each sub-task execution, the agent autonomously
reflects on its trajectory, converting the raw trajectory into structured
experience and integrating it back into the Memory Module. This mechanism
enables the agent to evolve beyond its static pretrained parameters, fostering
continuous learning and self-evolution. We evaluate MUSE on the long-horizon
productivity benchmark TAC. It achieves new SOTA performance by a significant
margin using only a lightweight Gemini-2.5 Flash model. Sufficient Experiments
demonstrate that as the agent autonomously accumulates experience, it exhibits
increasingly superior task completion capabilities, as well as robust
continuous learning and self-evolution capabilities. Moreover, the accumulated
experience from MUSE exhibits strong generalization properties, enabling
zero-shot improvement on new tasks. MUSE establishes a new paradigm for AI
agents capable of real-world productivity task automation.