PivotRL: Hochpräzises agentenbasiertes Nachträining bei geringen Rechenkosten

Zusammenfassung

Das Post-Training für langfristige agentenbasierte Aufgaben steht in einem Spannungsfeld zwischen Recheneffizienz und Generalisierung. Während überwachtes Feintuning (SFT) recheneffizient ist, leidet es oft unter Out-of-Domain (OOD)-Leistungseinbußen. Im Gegensatz dazu erhält end-to-end bestärkendes Lernen (E2E RL) die OOD-Fähigkeiten, verursacht jedoch aufgrund vieler Runden on-policy Rollouts hohe Rechenkosten. Wir stellen PivotRL vor, einen neuartigen Rahmen, der auf vorhandenen SFT-Trajektorien operiert, um die Recheneffizienz von SFT mit der OOD-Genauigkeit von E2E RL zu kombinieren. PivotRL basiert auf zwei Schlüsselmechanismen: Erstens führt es lokale on-policy Rollouts durch und filtert nach Pivotpunkten – informativen Zwischenschritten, bei denen die gesampelten Aktionen eine hohe Varianz in den Ergebnissen aufweisen. Zweitens nutzt es Belohnungen für funktional äquivalente Aktionen anstatt strikte Zeichenkettenübereinstimmung mit den SFT-Demonstrationsdaten zu verlangen. Wir zeigen theoretisch, dass diese Mechanismen starke Lernsignale mit hoher natürlicher Gradientennorm incentivieren, während sie gleichzeitig die Reihenfolge der Aktionswahrscheinlichkeiten der Politik bei aufgabenunabhängigen Aktionen maximal erhalten. Im Vergleich zu standardmäßigem SFT auf identischen Daten demonstrieren wir, dass PivotRL durchschnittlich eine um +4,17 % höhere In-Domain-Genauigkeit über vier agentenbasierte Domänen und eine um +10,04 % höhere OOD-Genauigkeit in nicht-agentenbasierten Aufgaben erreicht. Bemerkenswerterweise erzielt PivotRL bei agentenbasierten Programmieraufgaben eine vergleichbare Genauigkeit wie E2E RL, jedoch mit 4-mal weniger Rollout-Runden. PivotRL wird von NVIDIA's Nemotron-3-Super-120B-A12B übernommen und dient als zentrale Methode im produktionsskaligen agentenbasierten Post-Training.

English

Post-training for long-horizon agentic tasks has a tension between compute efficiency and generalization. While supervised fine-tuning (SFT) is compute efficient, it often suffers from out-of-domain (OOD) degradation. Conversely, end-to-end reinforcement learning (E2E RL) preserves OOD capabilities, but incurs high compute costs due to many turns of on-policy rollout. We introduce PivotRL, a novel framework that operates on existing SFT trajectories to combine the compute efficiency of SFT with the OOD accuracy of E2E RL. PivotRL relies on two key mechanisms: first, it executes local, on-policy rollouts and filters for pivots: informative intermediate turns where sampled actions exhibit high variance in outcomes; second, it utilizes rewards for functional-equivalent actions rather than demanding strict string matching with the SFT data demonstration. We theoretically show that these mechanisms incentivize strong learning signals with high natural gradient norm, while maximally preserving policy probability ordering on actions unrelated to training tasks. In comparison to standard SFT on identical data, we demonstrate that PivotRL achieves +4.17% higher in-domain accuracy on average across four agentic domains, and +10.04% higher OOD accuracy in non-agentic tasks. Notably, on agentic coding tasks, PivotRL achieves competitive accuracy with E2E RL with 4x fewer rollout turns. PivotRL is adopted by NVIDIA's Nemotron-3-Super-120B-A12B, acting as the workhorse in production-scale agentic post-training.

PivotRL: Hochpräzises agentenbasiertes Nachträining bei geringen Rechenkosten

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

Zusammenfassung

Support