ChatPaper.aiChatPaper

Ottimizzazione della Politica Agente tramite Co-Evoluzione Istruzione-Politica

Agentic Policy Optimization via Instruction-Policy Co-Evolution

December 1, 2025
Autori: Han Zhou, Xingchen Wan, Ivan Vulić, Anna Korhonen
cs.AI

Abstract

Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha potenziato le capacità di ragionamento dei grandi modelli linguistici (LLM), abilitando agenti autonomi in grado di condurre ragionamenti efficaci multi-turno e integrati con strumenti. Sebbene le istruzioni costituiscano il protocollo principale per definire gli agenti, l'RLVR si basa tipicamente su istruzioni statiche e progettate manualmente. Tuttavia, tali istruzioni possono essere subottimali per il modello base, e l'istruzione ottimale può cambiare man mano che la politica dell'agente migliora ed esplora l'interazione con l'ambiente. Per colmare questa lacuna, introduciamo INSPO, un innovativo framework di co-evoluzione Istruzione-Politica che integra l'ottimizzazione delle istruzioni come componente dinamica del ciclo di apprendimento per rinforzo (RL). INSPO mantiene una popolazione dinamica di candidati istruzione che vengono campionati insieme alle domande, dove i segnali di ricompensa nei cicli RL vengono automaticamente attribuiti a ciascuna istruzione, e le candidate con basse prestazioni vengono periodicamente eliminate. Nuove istruzioni vengono generate e verificate attraverso un meccanismo di riflessione on-policy, in cui un ottimizzatore basato su LLM analizza le esperienze passate da un replay buffer ed evolve strategie più efficaci data la politica corrente. Condividiamo esperimenti estesi su compiti di retrieval e ragionamento multi-turno, dimostrando che INSPO supera sostanzialmente solidi baseline che fanno affidamento su istruzioni statiche. INSPO scopre istruzioni innovative che guidano l'agente verso percorsi di ragionamento più strategici, ottenendo guadagni prestazionali sostanziali con solo un margine minimo di sovraccarico computazionale.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the reasoning capability of large language models (LLMs), enabling autonomous agents that can conduct effective multi-turn and tool-integrated reasoning. While instructions serve as the primary protocol for defining agents, RLVR typically relies on static and manually designed instructions. However, those instructions may be suboptimal for the base model, and the optimal instruction may change as the agent's policy improves and explores the interaction with the environment. To bridge the gap, we introduce INSPO, a novel Instruction-Policy co-evolution framework that integrates instruction optimization as a dynamic component of the reinforcement learning (RL) loop. INSPO maintains a dynamic population of instruction candidates that are sampled with questions, where reward signals in RL loops are automatically attributed to each instruction, and low performers are periodically pruned. New instructions are generated and verified through an on-policy reflection mechanism, where an LLM-based optimizer analyzes past experience from a replay buffer and evolves more effective strategies given the current policy. We conduct extensive experiments on multi-turn retrieval and reasoning tasks, demonstrating that INSPO substantially outperforms strong baselines relying on static instructions. INSPO discovers innovative instructions that guide the agent toward more strategic reasoning paths, achieving substantial performance gains with only a marginal increase in computational overhead.
PDF31December 3, 2025