ProRL-Agent: Rollout-as-a-Service für das Reinforcement-Learning-Training von mehrschrittigen LLM-Agenten
ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents
March 19, 2026
Autoren: Hao Zhang, Mingjie Liu, Shaokun Zhang, Songyang Han, Jian Hu, Zhenghui Jin, Yuchi Zhang, Shizhe Diao, Ximing Lu, Binfeng Xu, Zhiding Yu, Jan Kautz, Yi Dong
cs.AI
Zusammenfassung
Mehrstufige LLM-Agenten gewinnen zunehmend an Bedeutung für die Lösung komplexer, interaktiver Aufgaben, und Reinforcement Learning (RL) ist eine Schlüsselkomponente zur Verbesserung ihres langfristigen Verhaltens. Allerdings erfordert das RL-Training die Generierung einer großen Anzahl abgeschotteter Rollout-Trajektorien, und bestehende Infrastrukturen koppeln häufig die Rollout-Orchestrierung mit der Trainingsschleife, was Systeme schwer migrierbar und wartbar macht. Im Sinne der Philosophie von Rollout-as-a-Service stellen wir ProRL Agent vor, eine skalierbare Infrastruktur, die den vollständigen agentenbasierten Rollout-Lebenszyklus über einen API-Dienst bereitstellt. ProRL Agent bietet zudem standardisierte und erweiterbare Sandbox-Umgebungen, die verschiedene agentenbasierte Aufgaben in rootless HPC-Umgebungen unterstützen. Wir validieren ProRL Agent durch RL-Training für Aufgaben aus den Bereichen Softwareentwicklung, Mathematik, MINT-Fächer und Programmierung. ProRL Agent ist quelloffen und als Teil von NVIDIA NeMo Gym integriert.
English
Multi-turn LLM agents are increasingly important for solving complex, interactive tasks, and reinforcement learning (RL) is a key ingredient for improving their long-horizon behavior. However, RL training requires generating large numbers of sandboxed rollout trajectories, and existing infrastructures often couple rollout orchestration with the training loop, making systems hard to migrate and maintain. Under the rollout-as-a-service philosophy, we present ProRL Agent , a scalable infrastructure that serves the full agentic rollout lifecycle through an API service. ProRL Agent also provides standardized and extensible sandbox environments that support diverse agentic tasks in rootless HPC settings. We validate ProRL Agent through RL training on software engineering, math, STEM, and coding tasks. ProRL Agent is open-sourced and integrated as part of NVIDIA NeMo Gym.