PivotRL: Post-entrenamiento Agéntico de Alta Precisión con Bajo Coste Computacional

Resumen

El post-entrenamiento para tareas agentivas de horizonte largo presenta una tensión entre la eficiencia computacional y la generalización. Mientras que el ajuste fino supervisado (SFT) es eficiente computacionalmente, a menudo sufre de degradación fuera de dominio (OOD). Por el contrario, el aprendizaje por refuerzo de extremo a extremo (E2E RL) preserva las capacidades OOD, pero incurre en altos costes computacionales debido a las numerosas iteraciones de ejecución en línea. Presentamos PivotRL, un marco novedoso que opera sobre trayectorias SFT existentes para combinar la eficiencia computacional del SFT con la precisión OOD del E2E RL. PivotRL se basa en dos mecanismos clave: primero, ejecuta ejecuciones en línea locales y filtra los pivotes: turnos intermedios informativos donde las acciones muestreadas exhiben una alta varianza en los resultados; segundo, utiliza recompensas para acciones funcionalmente equivalentes en lugar de exigir una coincidencia estricta de cadenas con la demostración de datos del SFT. Demostramos teóricamente que estos mecanismos incentivan señales de aprendizaje sólidas con una alta norma de gradiente natural, mientras preservan al máximo el orden de probabilidad de la política en acciones no relacionadas con las tareas de entrenamiento. En comparación con el SFT estándar en datos idénticos, demostramos que PivotRL logra una precisión dentro del dominio un +4.17% mayor en promedio en cuatro dominios agentivos, y una precisión OOD un +10.04% mayor en tareas no agentivas. Notablemente, en tareas agentivas de programación, PivotRL logra una precisión competitiva con E2E RL con 4 veces menos iteraciones de ejecución. PivotRL es adoptado por el Nemotron-3-Super-120B-A12B de NVIDIA, actuando como el caballo de batalla en el post-entrenamiento agentivo a escala de producción.

English

Post-training for long-horizon agentic tasks has a tension between compute efficiency and generalization. While supervised fine-tuning (SFT) is compute efficient, it often suffers from out-of-domain (OOD) degradation. Conversely, end-to-end reinforcement learning (E2E RL) preserves OOD capabilities, but incurs high compute costs due to many turns of on-policy rollout. We introduce PivotRL, a novel framework that operates on existing SFT trajectories to combine the compute efficiency of SFT with the OOD accuracy of E2E RL. PivotRL relies on two key mechanisms: first, it executes local, on-policy rollouts and filters for pivots: informative intermediate turns where sampled actions exhibit high variance in outcomes; second, it utilizes rewards for functional-equivalent actions rather than demanding strict string matching with the SFT data demonstration. We theoretically show that these mechanisms incentivize strong learning signals with high natural gradient norm, while maximally preserving policy probability ordering on actions unrelated to training tasks. In comparison to standard SFT on identical data, we demonstrate that PivotRL achieves +4.17% higher in-domain accuracy on average across four agentic domains, and +10.04% higher OOD accuracy in non-agentic tasks. Notably, on agentic coding tasks, PivotRL achieves competitive accuracy with E2E RL with 4x fewer rollout turns. PivotRL is adopted by NVIDIA's Nemotron-3-Super-120B-A12B, acting as the workhorse in production-scale agentic post-training.

PivotRL: Post-entrenamiento Agéntico de Alta Precisión con Bajo Coste Computacional

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

Resumen

Support