APPO : Optimisation de politique procédurale agentique

Résumé

Les récentes avancées en apprentissage par renforcement agentique (RL) ont considérablement amélioré les capacités d'utilisation d'outils en plusieurs tours des agents basés sur de grands modèles de langage. Cependant, la plupart des méthodes existantes attribuent le crédit sur des unités heuristiques grossières, telles que les limites d'appels d'outils ou les workflows fixes, ce qui rend difficile l'identification des décisions intermédiaires influençant les résultats ultérieurs. Dans ce travail, nous étudions le RL agentique sous deux angles : où se ramifier et comment attribuer le crédit après la ramification. Notre analyse préliminaire montre que les points de décision influents sont largement répartis dans la séquence générée plutôt que concentrés au niveau des appels d'outils, tandis que l'entropie des jetons seule ne reflète pas de manière fiable leur impact sur les résultats finaux. Motivés par ces observations, nous proposons l'Optimisation Procédurale de Politique Agentique (APPO), qui déplace la ramification et l'attribution de crédit des unités d'interaction grossières vers des points de décision fins dans la séquence. APPO sélectionne les emplacements de ramification à l'aide d'un Score de Ramification qui combine l'incertitude des jetons avec les gains de vraisemblance induits par la politique dans les continuations ultérieures, permettant une exploration plus ciblée tout en filtrant les positions à haute entropie trompeuses. Il introduit en outre une mise à l'échelle des avantages au niveau de la procédure pour mieux répartir le crédit entre les déploiements ramifiés. Des expériences sur 13 benchmarks montrent qu'APPO améliore systématiquement les bases solides en RL agentique de près de 4 points, tout en maintenant des appels d'outils efficaces et une interprétabilité comportementale.

English

Recent advances in agentic Reinforcement Learning (RL) have substantially improved the multi-turn tool-use capabilities of large language model agents. However, most existing methods assign credit over coarse heuristic units, such as tool-call boundaries or fixed workflows, making it difficult to identify which intermediate decisions influence downstream outcomes. In this work, we study agentic RL from two perspectives: where to branch and how to assign credit after branching. Our pilot analysis shows that influential decision points are broadly distributed throughout the generated sequence rather than concentrated at tool calls, while token entropy alone does not reliably reflect their impact on final outcomes. Motivated by these observations, we propose Agentic Procedural Policy Optimization (APPO), which shifts branching and credit assignment from coarse interaction units to fine-grained decision points in the sequence. APPO selects branching locations using a Branching Score that combines token uncertainty with policy-induced likelihood gains of subsequent continuations, enabling more targeted exploration while filtering out spurious high-entropy positions. It further introduces procedure-level advantage scaling to better distribute credit across branched rollouts. Experiments on 13 benchmarks show that APPO consistently improves strong agentic RL baselines by nearly 4 points, while keeping efficient tool-calls and maintaining behavior interpretability.