Aprendendo no Trabalho: Um Agente Autoevolutivo Baseado em Experiência para Tarefas de Longo Prazo

Resumo

Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis em diversos domínios, mas desafios significativos persistem ao implantá-los como agentes de IA para tarefas de longo prazo no mundo real. Os agentes LLM existentes sofrem de uma limitação crítica: eles são estáticos durante o teste e não conseguem aprender com a experiência, carecendo da capacidade de acumular conhecimento e melhorar continuamente no trabalho. Para enfrentar esse desafio, propomos o MUSE, uma nova estrutura de agente que introduz um sistema autoevolutivo e orientado por experiência, centrado em um Módulo de Memória hierárquico. O MUSE organiza diversos níveis de experiência e os utiliza para planejar e executar tarefas de longo prazo em múltiplas aplicações. Após a execução de cada subtarefa, o agente reflete autonomamente sobre sua trajetória, convertendo a trajetória bruta em experiência estruturada e integrando-a de volta ao Módulo de Memória. Esse mecanismo permite que o agente evolua além de seus parâmetros pré-treinados estáticos, promovendo aprendizado contínuo e autoevolução. Avaliamos o MUSE no benchmark de produtividade de longo prazo TAC. Ele alcança um novo desempenho de estado da arte (SOTA) por uma margem significativa, utilizando apenas um modelo leve Gemini-2.5 Flash. Experimentos suficientes demonstram que, à medida que o agente acumula experiência de forma autônoma, ele exibe capacidades cada vez superiores de conclusão de tarefas, além de robustas capacidades de aprendizado contínuo e autoevolução. Além disso, a experiência acumulada pelo MUSE exibe fortes propriedades de generalização, permitindo melhorias zero-shot em novas tarefas. O MUSE estabelece um novo paradigma para agentes de IA capazes de automatizar tarefas de produtividade no mundo real.

English

Large Language Models have demonstrated remarkable capabilities across diverse domains, yet significant challenges persist when deploying them as AI agents for real-world long-horizon tasks. Existing LLM agents suffer from a critical limitation: they are test-time static and cannot learn from experience, lacking the ability to accumulate knowledge and continuously improve on the job. To address this challenge, we propose MUSE, a novel agent framework that introduces an experience-driven, self-evolving system centered around a hierarchical Memory Module. MUSE organizes diverse levels of experience and leverages them to plan and execute long-horizon tasks across multiple applications. After each sub-task execution, the agent autonomously reflects on its trajectory, converting the raw trajectory into structured experience and integrating it back into the Memory Module. This mechanism enables the agent to evolve beyond its static pretrained parameters, fostering continuous learning and self-evolution. We evaluate MUSE on the long-horizon productivity benchmark TAC. It achieves new SOTA performance by a significant margin using only a lightweight Gemini-2.5 Flash model. Sufficient Experiments demonstrate that as the agent autonomously accumulates experience, it exhibits increasingly superior task completion capabilities, as well as robust continuous learning and self-evolution capabilities. Moreover, the accumulated experience from MUSE exhibits strong generalization properties, enabling zero-shot improvement on new tasks. MUSE establishes a new paradigm for AI agents capable of real-world productivity task automation.

Aprendendo no Trabalho: Um Agente Autoevolutivo Baseado em Experiência para Tarefas de Longo Prazo

Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks

Resumo

Support