MemSkill: 자가 발전 에이전트를 위한 메모리 기술 학습 및 진화
MemSkill: Learning and Evolving Memory Skills for Self-Evolving Agents
February 2, 2026
저자: Haozhen Zhang, Quanyu Long, Jianzhu Bao, Tao Feng, Weizhi Zhang, Haodong Yue, Wenya Wang
cs.AI
초록
대부분의 대규모 언어 모델(LLM) 에이전트 메모리 시스템은 메모리 추출을 위해 소수의 정적이고 수동 설계된 연산 집합에 의존합니다. 이러한 고정된 절차는 무엇을 저장하고 어떻게 메모리를 수정할지에 대한 인간의 사전 지식을 하드코딩하여 다양한 상호작용 패턴 하에서 경직되고 긴 기록에서는 비효율적입니다. 이를 위해 본 논문은 이러한 연산을 학습 가능하고 진화 가능한 메모리 스킬, 즉 상호작용 흔적에서 정보를 추출, 통합, 정리하기 위한 구조화되고 재사용 가능한 루틴으로 재구성하는 MemSkill을 제안합니다. 에이전트 스킬의 설계 철학에서 영감을 받은 MemSkill은 소수의 관련 스킬을 선택하도록 학습하는 컨트롤러와 스킬의 지도를 받아 메모리를 생성하는 LLM 기반 실행기를 결합합니다. 스킬 선택을 학습하는 것을 넘어 MemSkill은 선택된 스킬이 부정확하거나 불완전한 메모리를 생성하는 어려운 사례를 주기적으로 검토하고 스킬 개선 및 새로운 스킬을 제안하여 스킬 집합을 진화시키는 디자이너를 도입합니다. 이를 통해 MemSkill은 스킬 선택 정책과 스킬 집합 자체를 모두 개선하는 폐쇄형 절차를 형성합니다. LoCoMo, LongMemEval, HotpotQA, ALFWorld에 대한 실험 결과, MemSkill이 강력한 베이스라인 대비 과제 성능을 향상시키고 다양한 설정에서 잘 일반화됨을 입증했습니다. 추가 분석은 스킬이 어떻게 진화하는지 보여주며, LLM 에이전트를 위한 더 적응적이고 자기 진화적인 메모리 관리 방향에 대한 통찰을 제공합니다.
English
Most Large Language Model (LLM) agent memory systems rely on a small set of static, hand-designed operations for extracting memory. These fixed procedures hard-code human priors about what to store and how to revise memory, making them rigid under diverse interaction patterns and inefficient on long histories. To this end, we present MemSkill, which reframes these operations as learnable and evolvable memory skills, structured and reusable routines for extracting, consolidating, and pruning information from interaction traces. Inspired by the design philosophy of agent skills, MemSkill employs a controller that learns to select a small set of relevant skills, paired with an LLM-based executor that produces skill-guided memories. Beyond learning skill selection, MemSkill introduces a designer that periodically reviews hard cases where selected skills yield incorrect or incomplete memories, and evolves the skill set by proposing refinements and new skills. Together, MemSkill forms a closed-loop procedure that improves both the skill-selection policy and the skill set itself. Experiments on LoCoMo, LongMemEval, HotpotQA, and ALFWorld demonstrate that MemSkill improves task performance over strong baselines and generalizes well across settings. Further analyses shed light on how skills evolve, offering insights toward more adaptive, self-evolving memory management for LLM agents.