PivotRL: Post-Addestramento Agente ad Alta Precisione a Basso Costo Computazionale

Abstract

L'addestramento post-allenamento per compiti agentici a lungo orizzonte presenta una tensione tra efficienza computazionale e generalizzazione. Sebbene il supervised fine-tuning (SFT) sia efficiente dal punto di vista computazionale, spesso soffre di un degrado fuori dominio (out-of-domain, OOD). Al contrario, il reinforcement learning end-to-end (RL E2E) preserva le capacità OOD, ma comporta costi computazionali elevati a causa dei numerosi turni di rollout on-policy. Introduciamo PivotRL, un framework innovativo che opera sulle traiettorie SFT esistenti per combinare l'efficienza computazionale dell'SFT con l'accuratezza OOD del RL E2E. PivotRL si basa su due meccanismi chiave: primo, esegue rollout on-policy locali e filtra i *pivot*, ovvero turni intermedi informativi in cui le azioni campionate mostrano un'elevata varianza negli esiti; secondo, utilizza ricompense per azioni funzionalmente equivalenti piuttosto che richiedere una corrispondenza stringente con la dimostrazione nei dati SFT. Dimostriamo teoricamente che questi meccanismi incentivano segnali di apprendimento forti con un'elevata norma del gradiente naturale, preservando al massimo l'ordinamento delle probabilità della policy per azioni non correlate ai compiti di addestramento. Rispetto all'SFT standard sugli stessi dati, dimostriamo che PivotRL raggiunge un'accuratezza in dominio superiore in media del +4,17% su quattro domini agentici e un'accuratezza OOD superiore del +10,04% in compiti non agentici. In particolare, sui compiti agentici di programmazione, PivotRL raggiunge un'accuratezza competitiva con il RL E2E utilizzando 4 volte meno turni di rollout. PivotRL è stato adottato da NVIDIA's Nemotron-3-Super-120B-A12B, fungendo da motore principale nell'addestramento post-allenamento agentico su scala produttiva.

English

Post-training for long-horizon agentic tasks has a tension between compute efficiency and generalization. While supervised fine-tuning (SFT) is compute efficient, it often suffers from out-of-domain (OOD) degradation. Conversely, end-to-end reinforcement learning (E2E RL) preserves OOD capabilities, but incurs high compute costs due to many turns of on-policy rollout. We introduce PivotRL, a novel framework that operates on existing SFT trajectories to combine the compute efficiency of SFT with the OOD accuracy of E2E RL. PivotRL relies on two key mechanisms: first, it executes local, on-policy rollouts and filters for pivots: informative intermediate turns where sampled actions exhibit high variance in outcomes; second, it utilizes rewards for functional-equivalent actions rather than demanding strict string matching with the SFT data demonstration. We theoretically show that these mechanisms incentivize strong learning signals with high natural gradient norm, while maximally preserving policy probability ordering on actions unrelated to training tasks. In comparison to standard SFT on identical data, we demonstrate that PivotRL achieves +4.17% higher in-domain accuracy on average across four agentic domains, and +10.04% higher OOD accuracy in non-agentic tasks. Notably, on agentic coding tasks, PivotRL achieves competitive accuracy with E2E RL with 4x fewer rollout turns. PivotRL is adopted by NVIDIA's Nemotron-3-Super-120B-A12B, acting as the workhorse in production-scale agentic post-training.

PivotRL: Post-Addestramento Agente ad Alta Precisione a Basso Costo Computazionale

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

Abstract

Support