RODS: Síntesis de datos en línea impulsada por recompensas para agentes de uso de herramientas en múltiples turnos

Resumen

El RL de uso de herramientas en múltiples turnos se ve obstaculizado por el rápido agotamiento de las muestras informativas en conjuntos de datos estáticos. Observamos que la señal de gradiente en GRPO se concentra en las tareas con la mayor varianza de recompensa de las trayectorias, como consecuencia de la cota superior de Popoviciu. En consecuencia, las muestras cercanas a la frontera de capacidad del agente —donde los éxitos y fracasos están aproximadamente equilibrados— contribuyen con gradientes de política desproporcionadamente grandes. A medida que avanza el entrenamiento, esta frontera se desplaza continuamente, lo que agota gradualmente el conjunto de muestras informativas en un conjunto de datos estático. Proponemos RODS (Síntesis de Datos en Línea Impulsada por Recompensa) para resolver este agotamiento. RODS cierra el ciclo entre el entrenamiento de RL y la generación de datos al reutilizar la varianza de la recompensa de progreso como un detector de frontera práctico y sin coste adicional, que no requiere inferencia extra más allá de las trayectorias ya calculadas para el entrenamiento. Este detector identifica continuamente dichas muestras en la frontera, sintetiza nuevas variantes en múltiples turnos que igualan su complejidad estructural (por ejemplo, topología de API y profundidad de dependencias) mediante un canal de remuestreo alineado con las habilidades, y gestiona un búfer de repetición dinámico que co-evoluciona con la política. Partiendo de 400 semillas humanas y manteniendo un conjunto activo de entrenamiento de aproximadamente 800 muestras, RODS alcanza un rendimiento comparable al de un canal fuera de línea con 17 000 muestras, requiriendo aproximadamente 20 veces menos trayectorias, y mejora sobre el RL con datos fijos y la aumentación del entorno en nuestro entorno controlado.

English

Multi-turn tool-use RL is bottlenecked by the rapid depletion of informative samples in static datasets. We observe that the gradient signal in GRPO concentrates on tasks with the highest rollout reward variance, a consequence of the Popoviciu upper bound. Consequently, samples near the agent's capability boundary -- where successes and failures are roughly balanced -- contribute disproportionately large policy gradients. As training progresses, this boundary continuously shifts, which gradually depletes the pool of informative samples in a static dataset. We propose RODS (Reward-driven Online Data Synthesis) to resolve this depletion. RODS closes the loop between RL training and data generation by repurposing the progress reward variance as a practical, zero-cost boundary detector that requires no extra inference beyond the rollouts already computed for training. It continuously identifies such boundary samples, synthesizes new multi-turn variants matching their structural complexity (e.g., API topology and dependency depth) via a skill-aligned resampling pipeline, and manages a dynamic replay buffer that co-evolves with the policy. Starting from 400 human seeds and maintaining an active training pool of ~800 samples, RODS achieves comparable performance to a 17K-sample offline pipeline while requiring roughly 20x fewer trajectories, and improves over fixed-data RL and environment augmentation in our controlled setting.