A^2TGPO : Optimisation des Politiques de Groupe par Tours Agentique avec Écrêtage Adaptatif au Niveau du Tour

Résumé

L'apprentissage par renforcement pour les grands modèles de langage (LLM) agentiques repose généralement sur une récompense de résultat éparse au niveau de la trajectoire, ce qui rend difficile l'évaluation de la contribution des appels d'outils individuels dans les interactions multi-tours. Les approches existantes pour un tel attribution du crédit en cours de processus dépendent soit de modèles de récompense de processus externes distincts qui introduisent une consommation supplémentaire, soit de déploiements structurels arborescents qui ne font que redistribuer le signal de résultat tout en limitant la diversité des trajectoires. Une alternative prometteuse exploite le changement par tour de la probabilité prédite par la politique pour la vérité terrain, appelé Gain d'Information (IG), comme signal de processus intrinsèque sans évaluateur externe. Cependant, les travaux antérieurs sur l'exploitation des signaux IG dans la boucle d'entraînement par RL rencontrent trois défis systématiques : la normalisation sur des tours confrontés à des contextes positionnels hétérogènes peut fausser la position relative des tours individuels, l'accumulation d'un nombre variable de termes entraîne une dérive de l'amplitude de l'avantage avec la profondeur de la trajectoire, et une plage d'écrêtage fixe régit les mises à jour de la politique de manière identique pour des tours ayant des signaux IG très différents. Dans cet article, nous proposons A²TGPO (Optimisation de Politique par Groupe de Tours Agentique avec Ecrêtage Adaptatif au Niveau du Tour), qui conserve l'IG comme signal intrinsèque mais reconçoit la manière dont il est normalisé, accumulé et consommé : (i) normalisation par groupe de tours : normalise l'IG au sein de chaque groupe (invite, index-du-tour) afin que chaque tour soit comparé uniquement à ses pairs à la même profondeur d'interaction ; (ii) accumulation actualisée re-scalée par la variance : divise l'IG normalisé cumulé par la racine carrée des termes accumulés pour maintenir les amplitudes d'avantage comparables across les positions de tour ; et (iii) écrêtage adaptatif au niveau du tour : module la plage d'écrêtage de chaque tour en fonction de son IG normalisé, élargissant la région de mise à jour pour les tours informatifs et la rétrécissant pour les tours non informatifs.

English

Reinforcement learning for agentic large language models (LLMs) typically relies on a sparse, trajectory-level outcome reward, making it difficult to evaluate the contribution of individual tool-calls within multi-turn interactions. Existing approaches to such process credit assignment either depend on separate external process reward models that introduce additional consumption, or tree-based structural rollout that merely redistributes the outcome signal while constraining trajectory diversity. A promising alternative leverages the per-turn change in the policy's predicted probability of the ground-truth, termed Information Gain (IG), as an intrinsic process signal without an external evaluator. However, prior work on leveraging IG signals within the RL training loop faces three systematic challenges: normalizing across turns that face heterogeneous positional contexts can distort the relative standing of individual turns, accumulating a variable number of terms causes advantage magnitudes to drift with trajectory depth, and a fixed clipping range governs policy updates identically for turns with vastly different IG signals. In this paper, we propose A^2TGPO (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping), which retains IG as the intrinsic signal but re-designs how it is normalized, accumulated, and consumed: (i) turn-group normalization: normalizes IG within each (prompt, turn-index) group so that each turn is compared only against peers at the same interaction depth; (ii) variance-rescaled discounted accumulation: divides cumulative normalized IG by square root of accumulated terms to keep advantage magnitudes comparable across turn positions; and (iii) adaptive turn-level clipping: modulates each turn's clipping range based on its normalized IG, widening the update region for informative turns and narrowing it for uninformative ones.

A^2TGPO : Optimisation des Politiques de Groupe par Tours Agentique avec Écrêtage Adaptatif au Niveau du Tour

A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

Résumé

Support