ProRL Agent: Rollout-als-een-Service voor RL-training van Multi-Turn LLM-agents

Samenvatting

Multi-turn LLM-agents worden steeds belangrijker voor het oplossen van complexe, interactieve taken, en reinforcement learning (RL) is een cruciale component voor het verbeteren van hun gedrag op lange termijn. RL-training vereist echter het genereren van een groot aantal gesandboxte rollout-trajecten, en bestaande infrastructuren koppelen de orchestratie van rollouts vaak aan de trainingslus, wat systemen moeilijk migreerbaar en onderhoudbaar maakt. In lijn met de filosofie van rollout-as-a-service presenteren we **ProRL Agent**, een schaalbare infrastructuur die de volledige agent-rollout levenscyclus aanbiedt via een API-service. ProRL Agent biedt ook gestandaardiseerde en uitbreidbare sandbox-omgevingen die diverse agenttaken ondersteunen in rootless HPC-omgevingen. We valideren ProRL Agent via RL-training op taken voor software-engineering, wiskunde, STEM en programmeren. ProRL Agent is open-source en geïntegreerd als onderdeel van NVIDIA NeMo Gym.

English

Multi-turn LLM agents are increasingly important for solving complex, interactive tasks, and reinforcement learning (RL) is a key ingredient for improving their long-horizon behavior. However, RL training requires generating large numbers of sandboxed rollout trajectories, and existing infrastructures often couple rollout orchestration with the training loop, making systems hard to migrate and maintain. Under the rollout-as-a-service philosophy, we present ProRL Agent , a scalable infrastructure that serves the full agentic rollout lifecycle through an API service. ProRL Agent also provides standardized and extensible sandbox environments that support diverse agentic tasks in rootless HPC settings. We validate ProRL Agent through RL training on software engineering, math, STEM, and coding tasks. ProRL Agent is open-sourced and integrated as part of NVIDIA NeMo Gym.

ProRL Agent: Rollout-als-een-Service voor RL-training van Multi-Turn LLM-agents

ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

Samenvatting

Support