APPO: Agentische Prozedurale Policy-Optimierung

Zusammenfassung

Jüngste Fortschritte im agentischen Reinforcement Learning (RL) haben die Fähigkeiten von Large-Language-Modell-Agenten zur mehrschrittigen Werkzeugnutzung erheblich verbessert. Allerdings weisen die meisten bestehenden Methoden Kredite auf groben heuristischen Einheiten zu, wie etwa Werkzeugaufrufgrenzen oder festen Arbeitsabläufen, was es schwierig macht, zu identifizieren, welche Zwischenentscheidungen die nachgelagerten Ergebnisse beeinflussen. In dieser Arbeit untersuchen wir agentisches RL aus zwei Perspektiven: wo Verzweigungen auftreten und wie nach einer Verzweigung Kredite zugewiesen werden. Unsere Pilotanalyse zeigt, dass einflussreiche Entscheidungspunkte weit über die generierte Sequenz verteilt sind und nicht auf Werkzeugaufrufe konzentriert sind, während die Token-Entropie allein nicht zuverlässig deren Auswirkungen auf die Endergebnisse widerspiegelt. Motiviert durch diese Beobachtungen schlagen wir Agentic Procedural Policy Optimization (APPO) vor, das Verzweigung und Kreditzuweisung von groben Interaktionseinheiten auf feinkörnige Entscheidungspunkte in der Sequenz verlagert. APPO wählt Verzweigungsstellen mittels eines Verzweigungsscores aus, der Token-Unsicherheit mit politikinduzierten Wahrscheinlichkeitsgewinnen nachfolgender Fortsetzungen kombiniert, wodurch eine gezieltere Exploration ermöglicht und gleichzeitig scheinbare Positionen mit hoher Entropie herausgefiltert werden. Es führt zudem eine verfahrensbezogene Vorteilsskalierung ein, um Kredite besser über verzweigte Rollouts zu verteilen. Experimente auf 13 Benchmarks zeigen, dass APPO starke agentische RL-Baselines durchweg um fast 4 Punkte verbessert, während es effiziente Werkzeugaufrufe beibehält und die Interpretierbarkeit des Verhaltens bewahrt.

English

Recent advances in agentic Reinforcement Learning (RL) have substantially improved the multi-turn tool-use capabilities of large language model agents. However, most existing methods assign credit over coarse heuristic units, such as tool-call boundaries or fixed workflows, making it difficult to identify which intermediate decisions influence downstream outcomes. In this work, we study agentic RL from two perspectives: where to branch and how to assign credit after branching. Our pilot analysis shows that influential decision points are broadly distributed throughout the generated sequence rather than concentrated at tool calls, while token entropy alone does not reliably reflect their impact on final outcomes. Motivated by these observations, we propose Agentic Procedural Policy Optimization (APPO), which shifts branching and credit assignment from coarse interaction units to fine-grained decision points in the sequence. APPO selects branching locations using a Branching Score that combines token uncertainty with policy-induced likelihood gains of subsequent continuations, enabling more targeted exploration while filtering out spurious high-entropy positions. It further introduces procedure-level advantage scaling to better distribute credit across branched rollouts. Experiments on 13 benchmarks show that APPO consistently improves strong agentic RL baselines by nearly 4 points, while keeping efficient tool-calls and maintaining behavior interpretability.