PivotRL: Высокоточное агентное пост-обучение при низких вычислительных затратах

Аннотация

Посттренировка агентных задач с длинным горизонтом сталкивается с противоречием между вычислительной эффективностью и обобщающей способностью. Хотя контролируемая донастройка (SFT) вычислительно эффективна, она часто страдает от деградации на данных за пределами домена (OOD). Напротив, сквозное обучение с подкреплением (E2E RL) сохраняет OOD-способности, но требует высоких вычислительных затрат из-за множества циклов он-полисичных прогонов. Мы представляем PivotRL — новую структуру, которая работает с существующими SFT-траекториями, чтобы объединить вычислительную эффективность SFT с OOD-точностью E2E RL. PivotRL опирается на два ключевых механизма: во-первых, он выполняет локальные он-полисичные прогоны и фильтрует их для выявления поворотных точек — информативных промежуточных шагов, на которых сэмплированные действия демонстрируют высокую дисперсию исходов; во-вторых, он использует вознаграждения для функционально эквивалентных действий, а не требует строгого строкового соответствия с демонстрационными данными SFT. Теоретически мы показываем, что эти механизмы создают сильные обучающие сигналы с высокой нормой натурального градиента, одновременно максимально сохраняя порядок вероятностей политики для действий, не связанных с обучающими задачами. По сравнению со стандартной SFT на идентичных данных мы демонстрируем, что PivotRL в среднем достигает на 4.17% более высокой точности внутри домена в четырёх агентных областях и на 10.04% более высокой OOD-точности в неагентных задачах. Примечательно, что в агентных задачах по программированию PivotRL достигает конкурентоспособной точности с E2E RL, используя в 4 раза меньше циклов прогона. PivotRL используется в модели NVIDIA Nemotron-3-Super-120B-A12B, выступая в качестве рабочей лошадки в посттренировке агентов на производственных масштабах.

English

Post-training for long-horizon agentic tasks has a tension between compute efficiency and generalization. While supervised fine-tuning (SFT) is compute efficient, it often suffers from out-of-domain (OOD) degradation. Conversely, end-to-end reinforcement learning (E2E RL) preserves OOD capabilities, but incurs high compute costs due to many turns of on-policy rollout. We introduce PivotRL, a novel framework that operates on existing SFT trajectories to combine the compute efficiency of SFT with the OOD accuracy of E2E RL. PivotRL relies on two key mechanisms: first, it executes local, on-policy rollouts and filters for pivots: informative intermediate turns where sampled actions exhibit high variance in outcomes; second, it utilizes rewards for functional-equivalent actions rather than demanding strict string matching with the SFT data demonstration. We theoretically show that these mechanisms incentivize strong learning signals with high natural gradient norm, while maximally preserving policy probability ordering on actions unrelated to training tasks. In comparison to standard SFT on identical data, we demonstrate that PivotRL achieves +4.17% higher in-domain accuracy on average across four agentic domains, and +10.04% higher OOD accuracy in non-agentic tasks. Notably, on agentic coding tasks, PivotRL achieves competitive accuracy with E2E RL with 4x fewer rollout turns. PivotRL is adopted by NVIDIA's Nemotron-3-Super-120B-A12B, acting as the workhorse in production-scale agentic post-training.

PivotRL: Высокоточное агентное пост-обучение при низких вычислительных затратах

PivotRL: High Accuracy Agentic Post-Training at Low Compute Cost

Аннотация

Support