TRACE: Een geünificeerd raamwerk voor uitrolbudgettoewijzing voor efficiënt agentisch versterkingsleren

Samenvatting

Reinforcement learning met verifieerbare beloningen (RLVR) is een veelbelovende aanpak voor het verbeteren van redeneren en agentisch gedrag in grote taalmodellen. Uitrolintensieve beleidsoptimalisatie wordt echter vaak beperkt door onvoldoende beloningscontrast, wat ontstaat wanneer te eenvoudige of te complexe prompts feedback met lage variantie genereren en wanneer uitkomst-alleen-beloningen aan elke beslissing in een meerstapsuitrol dezelfde eindbeoordeling toekennen. Eerdere inspanningen waren gericht op het toewijzen van beschikbare uitrolmiddelen aan veelbelovende prompts, maar ze benutten alleen de informatieve waarde van steekproeven op promptniveau en negeren variatie in prefix-niveau informatieve waarde tussen stappen binnen dezelfde uitrol. Dit werk richt zich op meerstaps agentisch RL door elke ReAct-achtige gedachte-actie-waarneming stap te modelleren als een semantisch distinct knooppunt, waardoor budgettoewijzing kan worden uitgebreid van promptwortels naar prefixen op stapniveau met verdere voortzettingen, wat van nature een boomstructuur in de uitrollen vormt. We introduceren Tree Rollout Allocation for Contrastive Exploration (TRACE), een uniform raamwerk voor uitroltoewijzing dat het beloningscontrast binnen een vast steekproefbudget verbetert. Technisch gezien wijst TRACE uitrolbudget toe aan zowel promptwortels als tussenliggende prefixen die het meest waarschijnlijk gemengde eindbeloningen opleveren. Een gedeelde generaliseerbare voorspeller schat de conditionele succeswaarschijnlijkheid bij deze ankers op basis van prefixgeschiedenissen om deze toewijzing te sturen. De resulterende adaptieve boomstructuur verrijkt uitkomst-alleen-feedback en versterkt het beleidsupdatesignaal. Empirisch gezien behaalt TRACE concurrerende prestaties en efficiëntiewinsten op typische agentische benchmarks, bijvoorbeeld door de gemiddelde nauwkeurigheid van Qwen3-14B Multi-Hop QA met 2,8 punten te verbeteren ten opzichte van competitieve baselines bij gelijke steekproefkosten.

English

Reinforcement learning with verifiable rewards (RLVR) is a promising approach for enhancing reasoning and agentic behavior in large language models. However, rollout-intensive policy optimization is often limited by insufficient reward contrast, arising when overly simple or complex prompts generate low-variance feedback and when outcome-only rewards assign the same terminal assessment to every decision in a multi-turn rollout. Past efforts have focused on allocating available rollout resources to promising prompts, yet they only leverage sample informativeness at the prompt level and neglect variation in prefix-level informativeness across turns within the same rollout. This work targets multi-turn agentic RL by modeling each ReAct-style thought-action-observation turn as a semantically distinct node, allowing budget allocation to extend from prompt roots to turn-level prefixes with further continuations, which naturally forms tree-structured rollouts. We introduce Tree Rollout Allocation for Contrastive Exploration (TRACE), a unified rollout allocation framework that enhances reward contrast within a fixed sampling budget. Technically, TRACE allocates rollout budget to both prompt roots and intermediate prefixes that are most likely to yield mixed terminal rewards. A shared generalizable predictor estimates conditional success probability at these anchors from prefix histories to guide this allocation. The resulting adaptive tree structure enriches outcome-only feedback and amplifies the policy-update signal. Empirically, TRACE achieves competitive performance and efficiency gains on typical agentic benchmarks, e.g., improving Qwen3-14B Multi-Hop QA average accuracy by 2.8 points over competitive baselines at equal sampling cost.