직무 학습: 장기적 과제를 위한 경험 기반 자기 진화 에이전트
Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-Horizon Tasks
October 9, 2025
저자: Cheng Yang, Xuemeng Yang, Licheng Wen, Daocheng Fu, Jianbiao Mei, Rong Wu, Pinlong Cai, Yufan Shen, Nianchen Deng, Botian Shi, Yu Qiao, Haifeng Li
cs.AI
초록
대규모 언어 모델(LLM)은 다양한 영역에서 뛰어난 능력을 보여주었지만, 이를 실세계의 장기적 과제를 위한 AI 에이전트로 배포할 때는 여전히 상당한 과제가 남아 있습니다. 기존의 LLM 에이전트는 결정적인 한계를 가지고 있습니다: 이들은 테스트 시점에서 정적이며 경험으로부터 학습할 수 없어, 지식을 축적하고 업무 중 지속적으로 개선할 수 있는 능력이 부족합니다. 이러한 문제를 해결하기 위해, 우리는 계층적 메모리 모듈을 중심으로 한 경험 주도적, 자기 진화 시스템을 도입한 새로운 에이전트 프레임워크인 MUSE를 제안합니다. MUSE는 다양한 수준의 경험을 조직화하고 이를 활용하여 여러 애플리케이션에서 장기적 과제를 계획하고 실행합니다. 각 하위 과제 실행 후, 에이전트는 자율적으로 자신의 궤적을 반추하며, 원시 궤적을 구조화된 경험으로 변환하여 메모리 모듈에 통합합니다. 이 메커니즘은 에이전트가 정적으로 사전 학습된 매개변수를 넘어서 지속적인 학습과 자기 진화를 가능하게 합니다. 우리는 MUSE를 장기적 생산성 벤치마크인 TAC에서 평가했습니다. MUSE는 경량의 Gemini-2.5 Flash 모델만을 사용하여 상당한 차이로 새로운 SOTA 성능을 달성했습니다. 충분한 실험을 통해, 에이전트가 자율적으로 경험을 축적함에 따라 점점 더 우수한 과제 완수 능력과 강력한 지속적 학습 및 자기 진화 능력을 보여준다는 것을 입증했습니다. 더욱이, MUSE에서 축적된 경험은 강력한 일반화 특성을 보여주어, 새로운 과제에서의 제로샷 개선을 가능하게 합니다. MUSE는 실세계 생산성 과제 자동화가 가능한 AI 에이전트를 위한 새로운 패러다임을 정립합니다.
English
Large Language Models have demonstrated remarkable capabilities across
diverse domains, yet significant challenges persist when deploying them as AI
agents for real-world long-horizon tasks. Existing LLM agents suffer from a
critical limitation: they are test-time static and cannot learn from
experience, lacking the ability to accumulate knowledge and continuously
improve on the job. To address this challenge, we propose MUSE, a novel agent
framework that introduces an experience-driven, self-evolving system centered
around a hierarchical Memory Module. MUSE organizes diverse levels of
experience and leverages them to plan and execute long-horizon tasks across
multiple applications. After each sub-task execution, the agent autonomously
reflects on its trajectory, converting the raw trajectory into structured
experience and integrating it back into the Memory Module. This mechanism
enables the agent to evolve beyond its static pretrained parameters, fostering
continuous learning and self-evolution. We evaluate MUSE on the long-horizon
productivity benchmark TAC. It achieves new SOTA performance by a significant
margin using only a lightweight Gemini-2.5 Flash model. Sufficient Experiments
demonstrate that as the agent autonomously accumulates experience, it exhibits
increasingly superior task completion capabilities, as well as robust
continuous learning and self-evolution capabilities. Moreover, the accumulated
experience from MUSE exhibits strong generalization properties, enabling
zero-shot improvement on new tasks. MUSE establishes a new paradigm for AI
agents capable of real-world productivity task automation.