RODS: Beloningsgestuurde Online Datasynthese voor Meerstaps Toolgebruikende Agenten

Samenvatting

Multi-turn tool-use RL wordt gefleste door de snelle uitputting van informatieve samples in statische datasets. We observeren dat het gradiëntsignaal in GRPO zich concentreert op taken met de hoogste rollout-beloningsvariantie, een gevolg van de Popoviciu-bovengrens. Hierdoor leveren samples nabij de capaciteitsgrens van de agent – waar successen en mislukkingen ongeveer in evenwicht zijn – onevenredig grote beleidsgradiënten. Naarmate de training vordert, verschuift deze grens continu, waardoor de pool van informatieve samples in een statische dataset geleidelijk wordt uitgeput. We stellen RODS (Reward-driven Online Data Synthesis) voor om deze uitputting tegen te gaan. RODS sluit de lus tussen RL-training en datageneratie door de voortgangsbeloningsvariantie te hergebruiken als een praktische, kosteloze grensdetector die geen extra inferentie vereist naast de rollouts die al voor de training worden berekend. Het identificeert continu dergelijke grenssamples, synthetiseert nieuwe multi-turn varianten die overeenkomen met hun structurele complexiteit (bijv. API-topologie en afhankelijkheidsdiepte) via een vaardigheid-afgestemde hersamplepijplijn, en beheert een dynamische herhalingsbuffer die co-evolueert met het beleid. Uitgaande van 400 menselijke zaadjes en een actieve trainingspool van ~800 samples, bereikt RODS een vergelijkbare prestatie als een offline pijplijn met 17K samples, terwijl het ongeveer 20x minder trajecten vereist, en verbetert het ten opzichte van fixed-data RL en omgevingsaugmentatie in onze gecontroleerde opstelling.

English

Multi-turn tool-use RL is bottlenecked by the rapid depletion of informative samples in static datasets. We observe that the gradient signal in GRPO concentrates on tasks with the highest rollout reward variance, a consequence of the Popoviciu upper bound. Consequently, samples near the agent's capability boundary -- where successes and failures are roughly balanced -- contribute disproportionately large policy gradients. As training progresses, this boundary continuously shifts, which gradually depletes the pool of informative samples in a static dataset. We propose RODS (Reward-driven Online Data Synthesis) to resolve this depletion. RODS closes the loop between RL training and data generation by repurposing the progress reward variance as a practical, zero-cost boundary detector that requires no extra inference beyond the rollouts already computed for training. It continuously identifies such boundary samples, synthesizes new multi-turn variants matching their structural complexity (e.g., API topology and dependency depth) via a skill-aligned resampling pipeline, and manages a dynamic replay buffer that co-evolves with the policy. Starting from 400 human seeds and maintaining an active training pool of ~800 samples, RODS achieves comparable performance to a 17K-sample offline pipeline while requiring roughly 20x fewer trajectories, and improves over fixed-data RL and environment augmentation in our controlled setting.