A^2TGPO: Optimización de Políticas de Turno-Grupo Agéntica con Recorte Adaptativo a Nivel de Turno
A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping
May 7, 2026
Autores: Dingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang
cs.AI
Resumen
El aprendizaje por refuerzo para modelos de lenguaje grandes (LLM) agentivos suele depender de una recompensa de resultado a nivel de trayectoria, escasa, lo que dificulta evaluar la contribución de llamadas a herramientas individuales dentro de interacciones de múltiples turnos. Los enfoques existentes para dicha asignación de crédito del proceso dependen de modelos de recompensa de proceso externos separados que introducen un consumo adicional, o de despliegues estructurales basados en árboles que simplemente redistribuyen la señal de resultado mientras restringen la diversidad de trayectorias. Una alternativa prometedora aprovecha el cambio por turno en la probabilidad predicha por la política para la respuesta correcta, denominado Ganancia de Información (GI), como una señal de proceso intrínseca sin un evaluador externo. Sin embargo, trabajos previos sobre el aprovechamiento de señales de GI dentro del bucle de entrenamiento de RL enfrentan tres desafíos sistemáticos: la normalización a través de turnos que enfrentan contextos posicionales heterogéneos puede distorsionar la posición relativa de turnos individuales, la acumulación de un número variable de términos hace que las magnitudes de ventaja varíen con la profundidad de la trayectoria, y un rango de recorte fijo gobierna las actualizaciones de la política de manera idéntica para turnos con señales de GI muy diferentes. En este artículo, proponemos A^2TGPO (Optimización de Políticas para Grupos de Turnos Agentivos con Recorte Adaptativo a Nivel de Turno), que retiene la GI como señal intrínseca pero rediseña cómo se normaliza, acumula y consume: (i) normalización por grupo de turnos: normaliza la GI dentro de cada grupo (prompt, índice-de-turno) de modo que cada turno se compare solo con pares en la misma profundidad de interacción; (ii) acumulación descontada reescalada por varianza: divide la GI normalizada acumulada por la raíz cuadrada de los términos acumulados para mantener magnitudes de ventaja comparables entre posiciones de turno; y (iii) recorte adaptativo a nivel de turno: modula el rango de recorte de cada turno en función de su GI normalizada, ampliando la región de actualización para turnos informativos y reduciéndola para los no informativos.
English
Reinforcement learning for agentic large language models (LLMs) typically relies on a sparse, trajectory-level outcome reward, making it difficult to evaluate the contribution of individual tool-calls within multi-turn interactions. Existing approaches to such process credit assignment either depend on separate external process reward models that introduce additional consumption, or tree-based structural rollout that merely redistributes the outcome signal while constraining trajectory diversity. A promising alternative leverages the per-turn change in the policy's predicted probability of the ground-truth, termed Information Gain (IG), as an intrinsic process signal without an external evaluator. However, prior work on leveraging IG signals within the RL training loop faces three systematic challenges: normalizing across turns that face heterogeneous positional contexts can distort the relative standing of individual turns, accumulating a variable number of terms causes advantage magnitudes to drift with trajectory depth, and a fixed clipping range governs policy updates identically for turns with vastly different IG signals. In this paper, we propose A^2TGPO (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping), which retains IG as the intrinsic signal but re-designs how it is normalized, accumulated, and consumed: (i) turn-group normalization: normalizes IG within each (prompt, turn-index) group so that each turn is compared only against peers at the same interaction depth; (ii) variance-rescaled discounted accumulation: divides cumulative normalized IG by square root of accumulated terms to keep advantage magnitudes comparable across turn positions; and (iii) adaptive turn-level clipping: modulates each turn's clipping range based on its normalized IG, widening the update region for informative turns and narrowing it for uninformative ones.