PivotRL: Agent-gebaseerde nabewerking met hoge nauwkeurigheid tegen lage rekenkosten

Samenvatting

Post-training voor langetermijn agent-taken kent een spanning tussen rekenefficiëntie en generalisatie. Hoewel supervised fine-tuning (SFT) rekenefficiënt is, lijdt het vaak onder out-of-domain (OOD) degradatie. Omgekeerd behoudt end-to-end reinforcement learning (E2E RL) de OOD-capaciteiten, maar brengt het hoge rekenkosten met zich mee vanwege vele iteraties van on-policy rollouts. Wij introduceren PivotRL, een nieuw framework dat opereert op bestaande SFT-trajecten om de rekenefficiëntie van SFT te combineren met de OOD-nauwkeurigheid van E2E RL. PivotRL steunt op twee belangrijke mechanismen: ten eerste voert het lokale, on-policy rollouts uit en filtert het op pivots – informatieve tussenstappen waarin gesampelde acties een hoge variantie in uitkomsten vertonen; ten tweede benut het beloningen voor functioneel-equivalente acties in plaats van strikte string matching met de SFT-datademonstratie te eisen. Wij tonen theoretisch aan dat deze mechanismen sterke leer-signalen aanmoedigen met een hoge natural gradient norm, terwijl ze de volgorde van beleidskansen voor acties ongerelateerd aan de trainingstaken maximaal behouden. In vergelijking met standaard SFT op identieke data, demonstreren wij dat PivotRL gemiddeld over vier agent-domeinen een +4,17% hogere in-domain nauwkeurigheid bereikt, en een +10,04% hogere OOD-nauwkeurigheid in niet-agent taken. Opmerkelijk is dat PivotRL bij agent-coderingstaken een vergelijkbare nauwkeurigheid bereikt als E2E RL met 4x minder rollout-iteraties. PivotRL wordt gebruikt door NVIDIA's Nemotron-3-Super-120B-A12B en fungeert als de werkpaard voor post-training op productieschaal voor agent-taken.

English

Post-training for long-horizon agentic tasks has a tension between compute efficiency and generalization. While supervised fine-tuning (SFT) is compute efficient, it often suffers from out-of-domain (OOD) degradation. Conversely, end-to-end reinforcement learning (E2E RL) preserves OOD capabilities, but incurs high compute costs due to many turns of on-policy rollout. We introduce PivotRL, a novel framework that operates on existing SFT trajectories to combine the compute efficiency of SFT with the OOD accuracy of E2E RL. PivotRL relies on two key mechanisms: first, it executes local, on-policy rollouts and filters for pivots: informative intermediate turns where sampled actions exhibit high variance in outcomes; second, it utilizes rewards for functional-equivalent actions rather than demanding strict string matching with the SFT data demonstration. We theoretically show that these mechanisms incentivize strong learning signals with high natural gradient norm, while maximally preserving policy probability ordering on actions unrelated to training tasks. In comparison to standard SFT on identical data, we demonstrate that PivotRL achieves +4.17% higher in-domain accuracy on average across four agentic domains, and +10.04% higher OOD accuracy in non-agentic tasks. Notably, on agentic coding tasks, PivotRL achieves competitive accuracy with E2E RL with 4x fewer rollout turns. PivotRL is adopted by NVIDIA's Nemotron-3-Super-120B-A12B, acting as the workhorse in production-scale agentic post-training.

PivotRL: Agent-gebaseerde nabewerking met hoge nauwkeurigheid tegen lage rekenkosten

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

Samenvatting

Support