ChatPaper.aiChatPaper

Optimisation de Politique Agentique par Co-Évolution Instruction-Politique

Agentic Policy Optimization via Instruction-Policy Co-Evolution

December 1, 2025
papers.authors: Han Zhou, Xingchen Wan, Ivan Vulić, Anna Korhonen
cs.AI

papers.abstract

Le Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) a amélioré la capacité de raisonnement des grands modèles de langage (LLM), permettant à des agents autonomes de mener un raisonnement efficace multi-tours et intégrant des outils. Bien que les instructions constituent le principal protocole pour définir les agents, le RLVR repose généralement sur des instructions statiques et conçues manuellement. Cependant, ces instructions peuvent être sous-optimales pour le modèle de base, et l'instruction optimale peut évoluer au fur et à mesure que la politique de l'agent s'améliore et explore l'interaction avec l'environnement. Pour combler cet écart, nous présentons INSPO, un nouveau cadre de co-évolution Instruction-Politique qui intègre l'optimisation des instructions comme une composante dynamique de la boucle d'apprentissage par renforcement (RL). INSPO maintient une population dynamique de candidats d'instructions qui sont échantillonnés avec des questions, où les signaux de récompense dans les boucles RL sont automatiquement attribués à chaque instruction, et les moins performantes sont périodiquement élaguées. De nouvelles instructions sont générées et vérifiées via un mécanisme de réflexion sur la politique, où un optimiseur basé sur un LLM analyse l'expérience passée d'un tampon de rejeu et fait évoluer des stratégies plus efficaces compte tenu de la politique actuelle. Nous menons des expériences approfondies sur des tâches de raisonnement et de recherche d'information multi-tours, démontrant qu'INSPO surpasse substantiellement les solides bases de référence reposant sur des instructions statiques. INSPO découvre des instructions innovantes qui guident l'agent vers des chemins de raisonnement plus stratégiques, obtenant des gains de performance substantiels avec seulement une augmentation marginale de la surcharge computationnelle.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has advanced the reasoning capability of large language models (LLMs), enabling autonomous agents that can conduct effective multi-turn and tool-integrated reasoning. While instructions serve as the primary protocol for defining agents, RLVR typically relies on static and manually designed instructions. However, those instructions may be suboptimal for the base model, and the optimal instruction may change as the agent's policy improves and explores the interaction with the environment. To bridge the gap, we introduce INSPO, a novel Instruction-Policy co-evolution framework that integrates instruction optimization as a dynamic component of the reinforcement learning (RL) loop. INSPO maintains a dynamic population of instruction candidates that are sampled with questions, where reward signals in RL loops are automatically attributed to each instruction, and low performers are periodically pruned. New instructions are generated and verified through an on-policy reflection mechanism, where an LLM-based optimizer analyzes past experience from a replay buffer and evolves more effective strategies given the current policy. We conduct extensive experiments on multi-turn retrieval and reasoning tasks, demonstrating that INSPO substantially outperforms strong baselines relying on static instructions. INSPO discovers innovative instructions that guide the agent toward more strategic reasoning paths, achieving substantial performance gains with only a marginal increase in computational overhead.
PDF31December 3, 2025