APPO: Agentische Procedurele Beleidsoptimalisatie

Samenvatting

Recente vooruitgangen in agentische Reinforcement Learning (RL) hebben de meerstaps toolgebruiksmogelijkheden van agenten op basis van grote taalmodellen aanzienlijk verbeterd. Echter, de meeste bestaande methoden kennen credits toe over grove heuristische eenheden, zoals tool-aanroepgrenzen of vaste workflows, wat het moeilijk maakt om te identificeren welke tussenliggende beslissingen invloed hebben op uitkomsten verderop. In dit werk bestuderen we agentische RL vanuit twee perspectieven: waar te vertakken en hoe credits toe te kennen na vertakking. Onze pilotanalyse toont aan dat invloedrijke beslissingspunten breed verspreid zijn over de gegenereerde sequentie in plaats van geconcentreerd bij tool-aanroepen, terwijl tokenentropie alleen niet betrouwbaar hun impact op de uiteindelijke uitkomsten weerspiegelt. Gemotiveerd door deze observaties stellen we Agentic Procedural Policy Optimization (APPO) voor, dat vertakking en credit-toekenning verschuift van grove interactie-eenheden naar fijnmazige beslissingspunten in de sequentie. APPO selecteert vertakkingslocaties met behulp van een Vertakkingsscore die tokenonzekerheid combineert met door beleid geïnduceerde waarschijnlijkheidswinsten van daaropvolgende voortzettingen, wat gerichtere exploratie mogelijk maakt terwijl onechte posities met hoge entropie worden weggefilterd. Het introduceert verder procedure-niveau voordeelschaling om credits beter te verdelen over vertakte rollouts. Experimenten op 13 benchmarks tonen aan dat APPO consequent sterke agentische RL-baselines met bijna 4 punten verbetert, terwijl het efficiënte tool-aanroepen behoudt en de interpreteerbaarheid van gedrag handhaaft.

English

Recent advances in agentic Reinforcement Learning (RL) have substantially improved the multi-turn tool-use capabilities of large language model agents. However, most existing methods assign credit over coarse heuristic units, such as tool-call boundaries or fixed workflows, making it difficult to identify which intermediate decisions influence downstream outcomes. In this work, we study agentic RL from two perspectives: where to branch and how to assign credit after branching. Our pilot analysis shows that influential decision points are broadly distributed throughout the generated sequence rather than concentrated at tool calls, while token entropy alone does not reliably reflect their impact on final outcomes. Motivated by these observations, we propose Agentic Procedural Policy Optimization (APPO), which shifts branching and credit assignment from coarse interaction units to fine-grained decision points in the sequence. APPO selects branching locations using a Branching Score that combines token uncertainty with policy-induced likelihood gains of subsequent continuations, enabling more targeted exploration while filtering out spurious high-entropy positions. It further introduces procedure-level advantage scaling to better distribute credit across branched rollouts. Experiments on 13 benchmarks show that APPO consistently improves strong agentic RL baselines by nearly 4 points, while keeping efficient tool-calls and maintaining behavior interpretability.