PivotRL : Post-formation agentique de haute précision à faible coût informatique

Résumé

L'apprentissage post-entraînement pour les tâches agentiques à long terme présente une tension entre l'efficacité computationnelle et la généralisation. Alors que le fine-tuning supervisé (SFT) est efficace en calcul, il souffre souvent d'une dégradation hors domaine (OOD). À l'inverse, l'apprentissage par renforcement de bout en bout (E2E RL) préserve les capacités OOD, mais entraîne des coûts de calcul élevés en raison des nombreux tours de déploiement sur la politique. Nous présentons PivotRL, un cadre novateur qui exploite les trajectoires SFT existantes pour combiner l'efficacité computationnelle du SFT avec la précision OOD de l'E2E RL. PivotRL repose sur deux mécanismes clés : premièrement, il exécute des déploiements locaux sur la politique et filtre les pivots, c'est-à-dire des tours intermédiaires informatifs où les actions échantillonnées présentent une variance élevée dans les résultats ; deuxièmement, il utilise des récompenses pour des actions fonctionnellement équivalentes plutôt que d'exiger une correspondance stricte des chaînes de caractères avec la démonstration des données SFT. Nous montrons théoriquement que ces mécanismes favorisent des signaux d'apprentissage forts avec une norme de gradient naturel élevée, tout en préservant au maximum l'ordre de probabilité de la politique sur les actions non liées aux tâches d'entraînement. Par rapport au SFT standard sur des données identiques, nous démontrons que PivotRL atteint une précision en domaine supérieure de +4,17 % en moyenne sur quatre domaines agentiques, et une précision OOD supérieure de +10,04 % dans les tâches non agentiques. Notamment, sur les tâches de programmation agentique, PivotRL atteint une précision compétitive avec l'E2E RL avec 4 fois moins de tours de déploiement. PivotRL est adopté par le Nemotron-3-Super-120B-A12B de NVIDIA, servant de cheval de bataille pour l'apprentissage post-entraînement agentique à l'échelle de la production.

English

Post-training for long-horizon agentic tasks has a tension between compute efficiency and generalization. While supervised fine-tuning (SFT) is compute efficient, it often suffers from out-of-domain (OOD) degradation. Conversely, end-to-end reinforcement learning (E2E RL) preserves OOD capabilities, but incurs high compute costs due to many turns of on-policy rollout. We introduce PivotRL, a novel framework that operates on existing SFT trajectories to combine the compute efficiency of SFT with the OOD accuracy of E2E RL. PivotRL relies on two key mechanisms: first, it executes local, on-policy rollouts and filters for pivots: informative intermediate turns where sampled actions exhibit high variance in outcomes; second, it utilizes rewards for functional-equivalent actions rather than demanding strict string matching with the SFT data demonstration. We theoretically show that these mechanisms incentivize strong learning signals with high natural gradient norm, while maximally preserving policy probability ordering on actions unrelated to training tasks. In comparison to standard SFT on identical data, we demonstrate that PivotRL achieves +4.17% higher in-domain accuracy on average across four agentic domains, and +10.04% higher OOD accuracy in non-agentic tasks. Notably, on agentic coding tasks, PivotRL achieves competitive accuracy with E2E RL with 4x fewer rollout turns. PivotRL is adopted by NVIDIA's Nemotron-3-Super-120B-A12B, acting as the workhorse in production-scale agentic post-training.

PivotRL : Post-formation agentique de haute précision à faible coût informatique

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

Résumé

Support