RODS: Belohnungsgesteuerte Online-Datensynthese für Multi-Turn-Werkzeugnutzungsagenten

Zusammenfassung

Mehrstufiges Werkzeugnutzungs-RL wird durch die schnelle Erschöpfung informativer Stichproben in statischen Datensätzen eingeschränkt. Wir beobachten, dass sich das Gradientensignal in GRPO auf Aufgaben mit der höchsten Rollout-Belohnungsvarianz konzentriert, eine Folge der Popoviciu-Obergrenze. Folglich tragen Stichproben nahe der Fähigkeitsgrenze des Agenten – an denen Erfolge und Misserfolge etwa ausgewogen sind – überproportional große Policy-Gradienten bei. Mit fortschreitendem Training verschiebt sich diese Grenze kontinuierlich, wodurch der Pool informativer Stichproben in einem statischen Datensatz allmählich erschöpft wird. Wir schlagen RODS (belohnungsgesteuerte Online-Datensynthese) vor, um diese Erschöpfung zu beheben. RODS schließt den Kreislauf zwischen RL-Training und Datengenerierung, indem es die Fortschrittsbelohnungsvarianz als praktischen, kostenlosen Grenzdetektor umfunktioniert, der keine zusätzliche Inferenz über die bereits für das Training berechneten Rollouts hinaus erfordert. Es identifiziert kontinuierlich solche Grenzstichproben, synthetisiert neue mehrstufige Varianten, die deren struktureller Komplexität (z. B. API-Topologie und Abhängigkeitstiefe) entsprechen, über eine fähigkeitsabgestimmte Resampling-Pipeline und verwaltet einen dynamischen Wiederholungspuffer, der mit der Policy koevolviert. Ausgehend von 400 menschlichen Seeds und einem aktiven Trainingspool von etwa 800 Stichproben erreicht RODS eine vergleichbare Leistung wie eine Offline-Pipeline mit 17.000 Stichproben, benötigt dabei etwa 20-mal weniger Trajektorien und verbessert sich in unserer kontrollierten Umgebung gegenüber RL mit festen Daten und Umgebungsaugmentierung.

English

Multi-turn tool-use RL is bottlenecked by the rapid depletion of informative samples in static datasets. We observe that the gradient signal in GRPO concentrates on tasks with the highest rollout reward variance, a consequence of the Popoviciu upper bound. Consequently, samples near the agent's capability boundary -- where successes and failures are roughly balanced -- contribute disproportionately large policy gradients. As training progresses, this boundary continuously shifts, which gradually depletes the pool of informative samples in a static dataset. We propose RODS (Reward-driven Online Data Synthesis) to resolve this depletion. RODS closes the loop between RL training and data generation by repurposing the progress reward variance as a practical, zero-cost boundary detector that requires no extra inference beyond the rollouts already computed for training. It continuously identifies such boundary samples, synthesizes new multi-turn variants matching their structural complexity (e.g., API topology and dependency depth) via a skill-aligned resampling pipeline, and manages a dynamic replay buffer that co-evolves with the policy. Starting from 400 human seeds and maintaining an active training pool of ~800 samples, RODS achieves comparable performance to a 17K-sample offline pipeline while requiring roughly 20x fewer trajectories, and improves over fixed-data RL and environment augmentation in our controlled setting.