A^2TGPO: Agentische Turn-Group Policy Optimierung mit adaptivem Turn-Level Clipping
A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping
May 7, 2026
Autoren: Dingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang
cs.AI
Zusammenfassung
Reinforcement Learning für agentische große Sprachmodelle (LLMs) stützt sich typischerweise auf eine spärliche, trajectorienbezogene Ergebnisbelohnung, was die Bewertung des Beitrags einzelner Tool-Aufrufe innerhalb mehrstufiger Interaktionen erschwert. Bestehende Ansätze für eine solche prozessbezogene Kreditzuweisung sind entweder auf separate externe Prozessbewertungsmodelle angewiesen, die zusätzlichen Aufwand verursachen, oder auf baumbasierte Struktur-Rollouts, die lediglich das Ergebnissignal umverteilen, während sie die Trajektorienvielfalt einschränken. Eine vielversprechende Alternative nutzt die pro Zug auftretende Änderung der vorhergesagten Wahrscheinlichkeit der Ground-Truth durch die Policy, bezeichnet als Informationsgewinn (IG), als intrinsisches Prozesssignal ohne externen Bewerter. Allerdings sehen frühere Arbeiten zur Nutzung von IG-Signalen innerhalb der RL-Trainingsschleife drei systematische Herausforderungen: Die Normalisierung über Züge hinweg, die heterogenen Positionskontexten ausgesetzt sind, kann die relative Stellung einzelner Züge verzerren; die Akkumulation einer variablen Anzahl von Termen führt dazu, dass die Advantage-Größen mit der Trajektorientiefe driften; und ein fester Clipping-Bereich steuert Policy-Updates identisch für Züge mit sehr unterschiedlichen IG-Signalen. In diesem Artikel schlagen wir A^2TGPO (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping) vor, das IG als intrinsisches Signal beibehält, aber neu gestaltet, wie es normalisiert, akkumuliert und genutzt wird: (i) Zuggruppen-Normalisierung: Normalisiert IG innerhalb jeder (Prompt, Zug-Index)-Gruppe, sodass jeder Zug nur mit Peers auf derselben Interaktionstiefe verglichen wird; (ii) varianzskalierte diskontierte Akkumulation: Teilt den kumulativen normalisierten IG durch die Quadratwurzel der akkumulierten Terme, um die Advantage-Größen über verschiedene Zugpositionen hinweg vergleichbar zu halten; und (iii) adaptives zugbezogenes Clipping: Passt den Clipping-Bereich jedes Zuges basierend auf seinem normalisierten IG an, erweitert die Update-Region für informative Züge und verengt sie für uninformativen.
English
Reinforcement learning for agentic large language models (LLMs) typically relies on a sparse, trajectory-level outcome reward, making it difficult to evaluate the contribution of individual tool-calls within multi-turn interactions. Existing approaches to such process credit assignment either depend on separate external process reward models that introduce additional consumption, or tree-based structural rollout that merely redistributes the outcome signal while constraining trajectory diversity. A promising alternative leverages the per-turn change in the policy's predicted probability of the ground-truth, termed Information Gain (IG), as an intrinsic process signal without an external evaluator. However, prior work on leveraging IG signals within the RL training loop faces three systematic challenges: normalizing across turns that face heterogeneous positional contexts can distort the relative standing of individual turns, accumulating a variable number of terms causes advantage magnitudes to drift with trajectory depth, and a fixed clipping range governs policy updates identically for turns with vastly different IG signals. In this paper, we propose A^2TGPO (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping), which retains IG as the intrinsic signal but re-designs how it is normalized, accumulated, and consumed: (i) turn-group normalization: normalizes IG within each (prompt, turn-index) group so that each turn is compared only against peers at the same interaction depth; (ii) variance-rescaled discounted accumulation: divides cumulative normalized IG by square root of accumulated terms to keep advantage magnitudes comparable across turn positions; and (iii) adaptive turn-level clipping: modulates each turn's clipping range based on its normalized IG, widening the update region for informative turns and narrowing it for uninformative ones.