ChatPaper.aiChatPaper

자기 진화하는 LLM 에이전트를 위한 지속적 경험 내재화 재고찰

Rethinking Continual Experience Internalization for Self-Evolving LLM Agents

June 3, 2026
저자: Jingwen Chen, Wenkai Yang, Shengda Fan, Wenbo Nie, Chenxing Sun, Shaodong Zheng, Yangen Hu, Lu Pan, Ke Zeng, Yankai Lin
cs.AI

초록

경험 내재화는 과거 상호작용에서 얻은 맥락적 경험을 재사용 가능한 파라미터 기반 능력으로 전환함으로써, 대규모 언어 모델(LLM)의 지속적 학습을 위한 유망한 경로를 제공한다. 기존 연구가 주로 단일 반복 전이에 초점을 맞춘 반면, 우리는 다중 반복 경험 학습 조건에서 기존 방법들이 누적적 개선이 아닌 점진적 능력 붕괴를 겪는다는 사실을 발견하였다. 우리는 경험 내재화의 세 가지 핵심 차원을 통해 이러한 실패를 체계적으로 분석한다: (1) **경험 세분성**: 사례 수준 경험보다 원칙 수준 경험이 더 지속적임을 확인하였는데, 이는 궤적 특정 세부사항으로부터 전이 가능한 전략을 효과적으로 추상화하기 때문이다. (2) **경험 주입 패턴**: 분석 결과, 단계별 주입이 중간 의사결정 상태에 경험을 정렬함으로써 전역적 주입보다 현저히 우수한 성능을 보이며, 이는 장기적 도구 사용에 중요한 속성임을 밝혀냈다. (3) **내재화 체계**: 고품질 교사 궤적에 대한 오프-폴리시 맥락 증류는 학습자 유발 결함 상태에 대한 국소적 교정에 본질적으로 제한되는 온-폴리시 맥락 증류보다 훨씬 안정적인 학습 신호를 제공함을 입증하였다. 이러한 통찰들은 안정적이고 지속 가능한 경험 내재화를 위한 간단하면서도 강력한 방법론을 제시하며, 자기 진화 및 지속적 학습이 가능한 LLM을 설계하기 위한 구체적인 지침을 제공한다.
English
Experience internalization converts contextual experience from past interactions into reusable parametric capability, offering a promising path toward continual learning in large language models (LLMs). While prior work has predominantly focused on single-iteration transfer, we discover that under multi-iteration experience learning, existing methods suffer from a progressive capability collapse rather than compounding improvement. We systematically examine this failure through three vital dimensions of experience internalization: (1) Experience Granularity: We find that principle-level experience is more durable than instance-level experience, as it effectively abstracts transferable strategies away from trajectory-specific details. (2) Experience Injection Pattern: Our analysis reveals that step-wise injection significantly outperforms global injection by aligning experience with intermediate decision states, a property that is critical for long-horizon tool use. (3) Internalization Regime: We demonstrate that off-policy context-distillation on high-quality teacher trajectories provides a substantially more stable training signal than on-policy context-distillation, which is inherently limited by local corrections on student-induced flawed states. Together, these insights yield a simple yet robust recipe for stable and sustainable experience internalization, providing concrete guidance for engineering self-evolving and continually learning LLMs.