PivotRL: Pós-treinamento Agêntico de Alta Precisão com Baixo Custo Computacional

Resumo

A pós-treinamento para tarefas agentísticas de longo horizonte apresenta uma tensão entre eficiência computacional e generalização. Embora o ajuste fino supervisionado (SFT) seja computacionalmente eficiente, frequentemente sofre com degradação fora do domínio (OOD). Por outro lado, o aprendizado por reforço de ponta a ponta (E2E RL) preserva as capacidades OOD, mas incorre em altos custos computacionais devido às muitas rodadas de rollout *on-policy*. Apresentamos o PivotRL, uma estrutura inovadora que opera em trajetórias SFT existentes para combinar a eficiência computacional do SFT com a precisão OOD do E2E RL. O PivotRL baseia-se em dois mecanismos principais: primeiro, executa rollouts *on-policy* locais e filtra *pivôs* - turnos intermediários informativos onde as ações amostradas exibem alta variância nos resultados; segundo, utiliza recompensas para ações funcionalmente equivalentes em vez de exigir uma correspondência estrita de cadeias de caracteres com a demonstração de dados do SFT. Mostramos teoricamente que esses mecanismos incentivam sinais de aprendizagem robustos com alta norma de gradiente natural, preservando maximamente a ordenação de probabilidade da política em ações não relacionadas às tarefas de treinamento. Em comparação com o SFT padrão nos mesmos dados, demonstramos que o PivotRL alcança uma precisão intra-domínio +4,17% maior em média em quatro domínios agentísticos e uma precisão OOD +10,04% maior em tarefas não agentísticas. Notavelmente, em tarefas agentísticas de codificação, o PivotRL alcança precisão competitiva com o E2E RL usando 4 vezes menos turnos de rollout. O PivotRL é adotado pelo Nemotron-3-Super-120B-A12B da NVIDIA, atuando como a ferramenta principal na pós-formação agentística em escala de produção.

English

Post-training for long-horizon agentic tasks has a tension between compute efficiency and generalization. While supervised fine-tuning (SFT) is compute efficient, it often suffers from out-of-domain (OOD) degradation. Conversely, end-to-end reinforcement learning (E2E RL) preserves OOD capabilities, but incurs high compute costs due to many turns of on-policy rollout. We introduce PivotRL, a novel framework that operates on existing SFT trajectories to combine the compute efficiency of SFT with the OOD accuracy of E2E RL. PivotRL relies on two key mechanisms: first, it executes local, on-policy rollouts and filters for pivots: informative intermediate turns where sampled actions exhibit high variance in outcomes; second, it utilizes rewards for functional-equivalent actions rather than demanding strict string matching with the SFT data demonstration. We theoretically show that these mechanisms incentivize strong learning signals with high natural gradient norm, while maximally preserving policy probability ordering on actions unrelated to training tasks. In comparison to standard SFT on identical data, we demonstrate that PivotRL achieves +4.17% higher in-domain accuracy on average across four agentic domains, and +10.04% higher OOD accuracy in non-agentic tasks. Notably, on agentic coding tasks, PivotRL achieves competitive accuracy with E2E RL with 4x fewer rollout turns. PivotRL is adopted by NVIDIA's Nemotron-3-Super-120B-A12B, acting as the workhorse in production-scale agentic post-training.

PivotRL: Pós-treinamento Agêntico de Alta Precisão com Baixo Custo Computacional

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

Resumo

Support