ChatPaper.aiChatPaper

APPO: Agentische Prozedurale Policy-Optimierung

APPO: Agentic Procedural Policy Optimization

June 10, 2026
Autoren: Xucong Wang, Ziyu Ma, Yong Wang, Yuxiang Ji, Shidong Yang, Guanhua Chen, Pengkun Wang, Xiangxiang Chu
cs.AI

Zusammenfassung

Jüngste Fortschritte im agentischen Reinforcement Learning (RL) haben die Fähigkeiten von Large-Language-Modell-Agenten zur mehrschrittigen Werkzeugnutzung erheblich verbessert. Allerdings weisen die meisten bestehenden Methoden Kredite auf groben heuristischen Einheiten zu, wie etwa Werkzeugaufrufgrenzen oder festen Arbeitsabläufen, was es schwierig macht, zu identifizieren, welche Zwischenentscheidungen die nachgelagerten Ergebnisse beeinflussen. In dieser Arbeit untersuchen wir agentisches RL aus zwei Perspektiven: wo Verzweigungen auftreten und wie nach einer Verzweigung Kredite zugewiesen werden. Unsere Pilotanalyse zeigt, dass einflussreiche Entscheidungspunkte weit über die generierte Sequenz verteilt sind und nicht auf Werkzeugaufrufe konzentriert sind, während die Token-Entropie allein nicht zuverlässig deren Auswirkungen auf die Endergebnisse widerspiegelt. Motiviert durch diese Beobachtungen schlagen wir Agentic Procedural Policy Optimization (APPO) vor, das Verzweigung und Kreditzuweisung von groben Interaktionseinheiten auf feinkörnige Entscheidungspunkte in der Sequenz verlagert. APPO wählt Verzweigungsstellen mittels eines Verzweigungsscores aus, der Token-Unsicherheit mit politikin­duzierten Wahrscheinlichkeitsgewinnen nachfolgender Fortsetzungen kombiniert, wodurch eine gezieltere Exploration ermöglicht und gleichzeitig scheinbare Positionen mit hoher Entropie herausgefiltert werden. Es führt zudem eine verfahrensbezogene Vorteilsskalierung ein, um Kredite besser über verzweigte Rollouts zu verteilen. Experimente auf 13 Benchmarks zeigen, dass APPO starke agentische RL-Baselines durchweg um fast 4 Punkte verbessert, während es effiziente Werkzeugaufrufe beibehält und die Interpretierbarkeit des Verhaltens bewahrt.
English
Recent advances in agentic Reinforcement Learning (RL) have substantially improved the multi-turn tool-use capabilities of large language model agents. However, most existing methods assign credit over coarse heuristic units, such as tool-call boundaries or fixed workflows, making it difficult to identify which intermediate decisions influence downstream outcomes. In this work, we study agentic RL from two perspectives: where to branch and how to assign credit after branching. Our pilot analysis shows that influential decision points are broadly distributed throughout the generated sequence rather than concentrated at tool calls, while token entropy alone does not reliably reflect their impact on final outcomes. Motivated by these observations, we propose Agentic Procedural Policy Optimization (APPO), which shifts branching and credit assignment from coarse interaction units to fine-grained decision points in the sequence. APPO selects branching locations using a Branching Score that combines token uncertainty with policy-induced likelihood gains of subsequent continuations, enabling more targeted exploration while filtering out spurious high-entropy positions. It further introduces procedure-level advantage scaling to better distribute credit across branched rollouts. Experiments on 13 benchmarks show that APPO consistently improves strong agentic RL baselines by nearly 4 points, while keeping efficient tool-calls and maintaining behavior interpretability.