RODS: Síntese Online de Dados Impulsionada por Recompensa para Agentes de Uso de Ferramentas em Múltiplas Rodadas

Resumo

O RL de uso de ferramentas em múltiplas rodadas é limitado pelo rápido esgotamento de amostras informativas em conjuntos de dados estáticos. Observamos que o sinal de gradiente no GRPO se concentra em tarefas com a maior variância de recompensa de rollout, uma consequência do limite superior de Popoviciu. Consequentemente, amostras próximas ao limite da capacidade do agente — onde sucessos e falhas são aproximadamente equilibrados — contribuem com gradientes de política desproporcionalmente grandes. Conforme o treinamento avança, esse limite se desloca continuamente, o que gradualmente esgota o pool de amostras informativas em um conjunto de dados estático. Propomos o RODS (Síntese de Dados Online Orientada por Recompensa) para resolver esse esgotamento. O RODS fecha o ciclo entre o treinamento de RL e a geração de dados, reaproveitando a variância da recompensa de progresso como um detector de limites prático e de custo zero que não requer inferência adicional além dos rollouts já computados para o treinamento. Ele identifica continuamente tais amostras de limite, sintetiza novas variantes de múltiplas rodadas que correspondem à sua complexidade estrutural (por exemplo, topologia de API e profundidade de dependência) por meio de um pipeline de reamostragem alinhado a habilidades, e gerencia um buffer de reprodução dinâmico que coevolui com a política. Começando com 400 sementes humanas e mantendo um pool de treinamento ativo de ~800 amostras, o RODS alcança desempenho comparável a um pipeline offline de 17 mil amostras, exigindo aproximadamente 20x menos trajetórias, e melhora em relação ao RL com dados fixos e aumento de ambiente em nosso ambiente controlado.

English

Multi-turn tool-use RL is bottlenecked by the rapid depletion of informative samples in static datasets. We observe that the gradient signal in GRPO concentrates on tasks with the highest rollout reward variance, a consequence of the Popoviciu upper bound. Consequently, samples near the agent's capability boundary -- where successes and failures are roughly balanced -- contribute disproportionately large policy gradients. As training progresses, this boundary continuously shifts, which gradually depletes the pool of informative samples in a static dataset. We propose RODS (Reward-driven Online Data Synthesis) to resolve this depletion. RODS closes the loop between RL training and data generation by repurposing the progress reward variance as a practical, zero-cost boundary detector that requires no extra inference beyond the rollouts already computed for training. It continuously identifies such boundary samples, synthesizes new multi-turn variants matching their structural complexity (e.g., API topology and dependency depth) via a skill-aligned resampling pipeline, and manages a dynamic replay buffer that co-evolves with the policy. Starting from 400 human seeds and maintaining an active training pool of ~800 samples, RODS achieves comparable performance to a 17K-sample offline pipeline while requiring roughly 20x fewer trajectories, and improves over fixed-data RL and environment augmentation in our controlled setting.