ChatPaper.aiChatPaper

Agente ProRL: Ejecución como Servicio para el Entrenamiento por Refuerzo de Agentes de LLM Multiturno

ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

March 19, 2026
Autores: Hao Zhang, Mingjie Liu, Shaokun Zhang, Songyang Han, Jian Hu, Zhenghui Jin, Yuchi Zhang, Shizhe Diao, Ximing Lu, Binfeng Xu, Zhiding Yu, Jan Kautz, Yi Dong
cs.AI

Resumen

Los agentes de LLM multi-turn son cada vez más importantes para resolver tareas complejas e interactivas, y el aprendizaje por refuerzo (RL) es un componente clave para mejorar su comportamiento de horizonte largo. Sin embargo, el entrenamiento con RL requiere generar grandes cantidades de trayectorias de rollout en entornos aislados (sandbox), y las infraestructuras existentes a menudo acoplan la orquestación de rollouts con el bucle de entrenamiento, lo que dificulta la migración y el mantenimiento de los sistemas. Bajo la filosofía de rollout-como-servicio, presentamos ProRL Agent, una infraestructura escalable que sirve el ciclo de vida completo de rollout agéntico a través de un servicio API. ProRL Agent también proporciona entornos sandbox estandarizados y extensibles que admiten diversas tareas agénticas en entornos HPC sin privilegios de root. Validamos ProRL Agent mediante entrenamiento con RL en tareas de ingeniería de software, matemáticas, STEM y codificación. ProRL Agent es de código abierto y está integrado como parte de NVIDIA NeMo Gym.
English
Multi-turn LLM agents are increasingly important for solving complex, interactive tasks, and reinforcement learning (RL) is a key ingredient for improving their long-horizon behavior. However, RL training requires generating large numbers of sandboxed rollout trajectories, and existing infrastructures often couple rollout orchestration with the training loop, making systems hard to migrate and maintain. Under the rollout-as-a-service philosophy, we present ProRL Agent , a scalable infrastructure that serves the full agentic rollout lifecycle through an API service. ProRL Agent also provides standardized and extensible sandbox environments that support diverse agentic tasks in rootless HPC settings. We validate ProRL Agent through RL training on software engineering, math, STEM, and coding tasks. ProRL Agent is open-sourced and integrated as part of NVIDIA NeMo Gym.
PDF50March 21, 2026