A^2TGPO: Agentische Turn-Groepsbeleidsoptimalisatie met Adaptieve Turn-niveau Clipping

Samenvatting

Versterkend leren voor agentische grote taalmodellen (LLM's) vertrouwt doorgaans op een schaarse, trajectniveau-uitkomstbeloning, waardoor het moeilijk is om de bijdrage van individuele tool-aanroepen binnen meerzijdige interacties te evalueren. Bestaande benaderingen voor dergelijke proces-toerekening van verdienste zijn ofwel afhankelijk van aparte externe procesbeloningsmodellen die extra kosten met zich meebrengen, of van op boomstructuren gebaseerde rollouts die het uitkomstsignaal slechts herverdelen terwijl ze de trajectdiversiteit beperken. Een veelbelovend alternatief maakt gebruik van de verandering per beurt in de door het beleid voorspelde waarschijnlijkheid van de grondwaarheid, genaamd Informatietoename (IG), als een intrinsiek processignaal zonder externe beoordelaar. Echter, eerder werk dat IG-signalen in de RL-trainingslus benut, kampt met drie systematische uitdagingen: normalisatie over beurten heen die met heterogene positionele contexten te maken krijgen kan de relatieve positie van individuele beurten verstoren, het accumuleren van een variabel aantal termen veroorzaakt dat de grootte-orde van voordelen afdrijft met de trajectdiepte, en een vast afkappbereik stuurt beleidsupdates identiek aan voor beurten met sterk uiteenlopende IG-signalen. In dit artikel stellen we A²TGPO voor (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping), dat IG behoudt als intrinsiek signaal maar herontwerpt hoe het wordt genormaliseerd, geaccumuleerd en verwerkt: (i) beurtgroep-normalisatie: normaliseert IG binnen elke (prompt, beurt-index) groep zodat elke beurt alleen wordt vergeleken met soortgenoten op dezelfde interactiediepte; (ii) variantie-herschaalde disconterende accumulatie: deelt cumulatieve genormaliseerde IG door de wortel uit geaccumuleerde termen om de grootte-orde van voordelen vergelijkbaar te houden over verschillende beurtposities heen; en (iii) adaptief beurtniveau-afkappen: moduleert het afkappbereik per beurt op basis van diens genormaliseerde IG, waarbij de updateregio wordt verbreed voor informatieve beurten en vernauwd voor niet-informatieve beurten.

English

Reinforcement learning for agentic large language models (LLMs) typically relies on a sparse, trajectory-level outcome reward, making it difficult to evaluate the contribution of individual tool-calls within multi-turn interactions. Existing approaches to such process credit assignment either depend on separate external process reward models that introduce additional consumption, or tree-based structural rollout that merely redistributes the outcome signal while constraining trajectory diversity. A promising alternative leverages the per-turn change in the policy's predicted probability of the ground-truth, termed Information Gain (IG), as an intrinsic process signal without an external evaluator. However, prior work on leveraging IG signals within the RL training loop faces three systematic challenges: normalizing across turns that face heterogeneous positional contexts can distort the relative standing of individual turns, accumulating a variable number of terms causes advantage magnitudes to drift with trajectory depth, and a fixed clipping range governs policy updates identically for turns with vastly different IG signals. In this paper, we propose A^2TGPO (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping), which retains IG as the intrinsic signal but re-designs how it is normalized, accumulated, and consumed: (i) turn-group normalization: normalizes IG within each (prompt, turn-index) group so that each turn is compared only against peers at the same interaction depth; (ii) variance-rescaled discounted accumulation: divides cumulative normalized IG by square root of accumulated terms to keep advantage magnitudes comparable across turn positions; and (iii) adaptive turn-level clipping: modulates each turn's clipping range based on its normalized IG, widening the update region for informative turns and narrowing it for uninformative ones.

A^2TGPO: Agentische Turn-Groepsbeleidsoptimalisatie met Adaptieve Turn-niveau Clipping

A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

Samenvatting

Support