ChatPaper.aiChatPaper

자연어처리 에이전트의 자발적·보상 무의존적 자기 진화를 위한 세계 지식 탐구 기반 학습

Training LLM Agents for Spontaneous, Reward-Free Self-Evolution via World Knowledge Exploration

April 20, 2026
저자: Qifan Zhang, Dongyang Ma, Tianqing Fang, Jia Li, Jing Tang, Nuo Chen, Haitao Mi, Yan Wang
cs.AI

초록

현재 대부분의 에이전트는 인간이 정의한 보상과 규칙을 따라 '자기 진화'를 수행합니다. 그러나 이 과정은 근본적으로 외부 감독에 의존적이며, 인간의 지도 없이는 진화가 중단됩니다. 본 연구에서는 에이전트가 작업 수행 전에 미지의 환경에 대해 자발적으로 학습할 수 있는 내재적 메타-진화 능력을 갖추도록 훈련시킵니다. 이러한 능력을 심어주기 위해, 우리는 에이전트가 자체 생성한 세계 지식이 하위 작업에서의 성공률을 얼마나 향상시키는지를 측정하는 결과 기반 보상 메커니즘을 설계했습니다. 이 보상 신호는 모델이 효과적으로 탐색하고 요약하는 방법을 가르치기 위해 훈련 단계에서만 독점적으로 사용됩니다. 추론 시점에는 에이전트에게 외부 보상이나 인간의 지시가 필요하지 않습니다. 에이전트는 내부 매개변수를 활용하여 미지의 환경에 적응하기 위해 자생적 자기 진화를 자발적으로 수행합니다. 이러한 자생적 진화 방식의 전환을 Qwen3-30B와 Seed-OSS-36B에 적용했을 때, WebVoyager와 WebWalker에서 20%의 성능 향상을 보였습니다. 가장 주목할 만한 점은 생성된 세계 지덕이 소규모의 14B Qwen3 모델로 하여금 외부 지원 없이 단독 수행한 Gemini-2.5-Flash를 능가하는 성과를 내게 하여, 진정한 의미의 진화하는 에이전트를 위한 새로운 패러다임을 확립했다는 것입니다.
English
Most agents today ``self-evolve'' by following rewards and rules defined by humans. However, this process remains fundamentally dependent on external supervision; without human guidance, the evolution stops. In this work, we train agents to possess an intrinsic meta-evolution capability to spontaneously learn about unseen environments prior to task execution. To instill this ability, we design an outcome-based reward mechanism that measures how much an agent's self-generated world knowledge improves its success rate on downstream tasks. This reward signal is used exclusively during the training phase to teach the model how to explore and summarize effectively. At inference time, the agent requires no external rewards or human instructions. It spontaneously performs native self-evolution to adapt to unknown environments using its internal parameters. When applied to Qwen3-30B and Seed-OSS-36B, this shift to native evolution yields a 20% performance increase on WebVoyager and WebWalker. Most strikingly, the generated world knowledge even enables a compact 14B Qwen3 model to outperform the unassisted Gemini-2.5-Flash, establishing a new paradigm for truly evolving agents.
PDF41April 22, 2026