RODS : Synthèse de données en ligne guidée par récompenses pour agents utilisant des outils en multi-tour

Résumé

L'apprentissage par renforcement avec utilisation d'outils en multi-tours est limité par l'épuisement rapide des échantillons informatifs dans les ensembles de données statiques. Nous observons que le signal de gradient dans GRPO se concentre sur les tâches présentant la plus grande variance de récompense des rollouts, une conséquence de la borne supérieure de Popoviciu. Par conséquent, les échantillons proches de la frontière de capacité de l'agent -- où les succès et les échecs sont à peu près équilibrés -- contribuent de manière disproportionnée aux gradients de politique. Au fur et à mesure de l'entraînement, cette frontière se déplace continuellement, ce qui épuise progressivement le réservoir d'échantillons informatifs dans un ensemble de données statique. Nous proposons RODS (synthèse en ligne de données pilotée par la récompense) pour résoudre cet épuisement. RODS boucle la boucle entre l'entraînement RL et la génération de données en réutilisant la variance de la récompense de progression comme un détecteur de frontière pratique et sans coût, qui ne nécessite aucune inférence supplémentaire au-delà des rollouts déjà calculés pour l'entraînement. Il identifie continuellement ces échantillons limites, synthétise de nouvelles variantes multi-tours correspondant à leur complexité structurelle (par exemple, topologie API et profondeur de dépendance) via un pipeline de rééchantillonnage aligné sur les compétences, et gère un tampon de rejeu dynamique qui co-évolue avec la politique. En partant de 400 amorces humaines et en maintenant un pool d'entraînement actif d'environ 800 échantillons, RODS atteint des performances comparables à celles d'un pipeline hors ligne de 17 000 échantillons tout en nécessitant environ 20 fois moins de trajectoires, et améliore les résultats par rapport au RL sur données fixes et à l'augmentation d'environnement dans notre environnement contrôlé.

English

Multi-turn tool-use RL is bottlenecked by the rapid depletion of informative samples in static datasets. We observe that the gradient signal in GRPO concentrates on tasks with the highest rollout reward variance, a consequence of the Popoviciu upper bound. Consequently, samples near the agent's capability boundary -- where successes and failures are roughly balanced -- contribute disproportionately large policy gradients. As training progresses, this boundary continuously shifts, which gradually depletes the pool of informative samples in a static dataset. We propose RODS (Reward-driven Online Data Synthesis) to resolve this depletion. RODS closes the loop between RL training and data generation by repurposing the progress reward variance as a practical, zero-cost boundary detector that requires no extra inference beyond the rollouts already computed for training. It continuously identifies such boundary samples, synthesizes new multi-turn variants matching their structural complexity (e.g., API topology and dependency depth) via a skill-aligned resampling pipeline, and manages a dynamic replay buffer that co-evolves with the policy. Starting from 400 human seeds and maintaining an active training pool of ~800 samples, RODS achieves comparable performance to a 17K-sample offline pipeline while requiring roughly 20x fewer trajectories, and improves over fixed-data RL and environment augmentation in our controlled setting.