A^2TGPO: Agentische Turn-Group Policy Optimierung mit adaptivem Turn-Level Clipping

Zusammenfassung

Reinforcement Learning für agentische große Sprachmodelle (LLMs) stützt sich typischerweise auf eine spärliche, trajectorienbezogene Ergebnisbelohnung, was die Bewertung des Beitrags einzelner Tool-Aufrufe innerhalb mehrstufiger Interaktionen erschwert. Bestehende Ansätze für eine solche prozessbezogene Kreditzuweisung sind entweder auf separate externe Prozessbewertungsmodelle angewiesen, die zusätzlichen Aufwand verursachen, oder auf baumbasierte Struktur-Rollouts, die lediglich das Ergebnissignal umverteilen, während sie die Trajektorienvielfalt einschränken. Eine vielversprechende Alternative nutzt die pro Zug auftretende Änderung der vorhergesagten Wahrscheinlichkeit der Ground-Truth durch die Policy, bezeichnet als Informationsgewinn (IG), als intrinsisches Prozesssignal ohne externen Bewerter. Allerdings sehen frühere Arbeiten zur Nutzung von IG-Signalen innerhalb der RL-Trainingsschleife drei systematische Herausforderungen: Die Normalisierung über Züge hinweg, die heterogenen Positionskontexten ausgesetzt sind, kann die relative Stellung einzelner Züge verzerren; die Akkumulation einer variablen Anzahl von Termen führt dazu, dass die Advantage-Größen mit der Trajektorientiefe driften; und ein fester Clipping-Bereich steuert Policy-Updates identisch für Züge mit sehr unterschiedlichen IG-Signalen. In diesem Artikel schlagen wir A^2TGPO (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping) vor, das IG als intrinsisches Signal beibehält, aber neu gestaltet, wie es normalisiert, akkumuliert und genutzt wird: (i) Zuggruppen-Normalisierung: Normalisiert IG innerhalb jeder (Prompt, Zug-Index)-Gruppe, sodass jeder Zug nur mit Peers auf derselben Interaktionstiefe verglichen wird; (ii) varianzskalierte diskontierte Akkumulation: Teilt den kumulativen normalisierten IG durch die Quadratwurzel der akkumulierten Terme, um die Advantage-Größen über verschiedene Zugpositionen hinweg vergleichbar zu halten; und (iii) adaptives zugbezogenes Clipping: Passt den Clipping-Bereich jedes Zuges basierend auf seinem normalisierten IG an, erweitert die Update-Region für informative Züge und verengt sie für uninformativen.

English

Reinforcement learning for agentic large language models (LLMs) typically relies on a sparse, trajectory-level outcome reward, making it difficult to evaluate the contribution of individual tool-calls within multi-turn interactions. Existing approaches to such process credit assignment either depend on separate external process reward models that introduce additional consumption, or tree-based structural rollout that merely redistributes the outcome signal while constraining trajectory diversity. A promising alternative leverages the per-turn change in the policy's predicted probability of the ground-truth, termed Information Gain (IG), as an intrinsic process signal without an external evaluator. However, prior work on leveraging IG signals within the RL training loop faces three systematic challenges: normalizing across turns that face heterogeneous positional contexts can distort the relative standing of individual turns, accumulating a variable number of terms causes advantage magnitudes to drift with trajectory depth, and a fixed clipping range governs policy updates identically for turns with vastly different IG signals. In this paper, we propose A^2TGPO (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping), which retains IG as the intrinsic signal but re-designs how it is normalized, accumulated, and consumed: (i) turn-group normalization: normalizes IG within each (prompt, turn-index) group so that each turn is compared only against peers at the same interaction depth; (ii) variance-rescaled discounted accumulation: divides cumulative normalized IG by square root of accumulated terms to keep advantage magnitudes comparable across turn positions; and (iii) adaptive turn-level clipping: modulates each turn's clipping range based on its normalized IG, widening the update region for informative turns and narrowing it for uninformative ones.

A^2TGPO: Agentische Turn-Group Policy Optimierung mit adaptivem Turn-Level Clipping

A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

Zusammenfassung

Support