지시-정책 공진화를 통한 능동 정책 최적화
Agentic Policy Optimization via Instruction-Policy Co-Evolution
December 1, 2025
저자: Han Zhou, Xingchen Wan, Ivan Vulić, Anna Korhonen
cs.AI
초록
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시켜, 효과적인 다중 턴 및 도구 통합 추론을 수행하는 자율 에이전트를 가능하게 하였습니다. 지시문은 에이전트를 정의하는 주요 프로토콜로 작용하지만, RLVR는 일반적으로 정적이고 수동으로 설계된 지시문에 의존합니다. 그러나 이러한 지시문은 기본 모델에 대해 최적이 아닐 수 있으며, 최적의 지시문은 에이전트의 정책이 개선되고 환경과의 상호작용을 탐색함에 따라 변화할 수 있습니다. 이러한 격차를 해결하기 위해 우리는 지시문 최적화를 강화 학습(RL) 루프의 동적 구성 요소로 통합하는 새로운 지시문-정책 공진화(INSPO) 프레임워크를 소개합니다. INSPO는 질문과 함께 샘플링되는 동적 지시문 후보 집단을 유지하며, RL 루프의 보상 신호가 각 지시문에 자동으로 귀속되고 성능이 낮은 후보는 주기적으로 제거됩니다. 새로운 지시문은 온-정책 반성 메커니즘을 통해 생성 및 검증되는데, 여기서 LLM 기반 최적화기는 재생 버퍼에서 과거 경험을 분석하고 현재 정책을 고려하여 더 효과적인 전략을 진화시킵니다. 우리는 다중 턴 검색 및 추론 과제에 대한 광범위한 실험을 수행하여 INSPO가 정적 지시문에 의존하는 강력한 베이스라인을 크게 능가함을 입증했습니다. INSPO는 에이전트를 보다 전략적인 추론 경로로 이끌는 혁신적인 지시문을 발견하여, 계산 오버헤드의 미미한 증가만으로도 상당한 성능 향상을 달성합니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the reasoning capability of large language models (LLMs), enabling autonomous agents that can conduct effective multi-turn and tool-integrated reasoning. While instructions serve as the primary protocol for defining agents, RLVR typically relies on static and manually designed instructions. However, those instructions may be suboptimal for the base model, and the optimal instruction may change as the agent's policy improves and explores the interaction with the environment. To bridge the gap, we introduce INSPO, a novel Instruction-Policy co-evolution framework that integrates instruction optimization as a dynamic component of the reinforcement learning (RL) loop. INSPO maintains a dynamic population of instruction candidates that are sampled with questions, where reward signals in RL loops are automatically attributed to each instruction, and low performers are periodically pruned. New instructions are generated and verified through an on-policy reflection mechanism, where an LLM-based optimizer analyzes past experience from a replay buffer and evolves more effective strategies given the current policy. We conduct extensive experiments on multi-turn retrieval and reasoning tasks, demonstrating that INSPO substantially outperforms strong baselines relying on static instructions. INSPO discovers innovative instructions that guide the agent toward more strategic reasoning paths, achieving substantial performance gains with only a marginal increase in computational overhead.