RODS: Управляемый вознаграждением онлайн-синтез данных для многошаговых агентов, использующих инструменты

Аннотация

Многошаговое RL с использованием инструментов ограничено быстрым истощением информативных образцов в статических наборах данных. Мы наблюдаем, что градиентный сигнал в GRPO сосредоточен на задачах с наибольшей дисперсией вознаграждения при развертывании, что является следствием верхней границы Поповичиу. Следовательно, образцы вблизи границы возможностей агента, где успехи и неудачи примерно сбалансированы, вносят непропорционально большие градиенты политики. По мере обучения эта граница непрерывно смещается, что постепенно истощает пул информативных образцов в статическом наборе данных. Мы предлагаем RODS (синтез данных в реальном времени на основе вознаграждения) для решения этой проблемы истощения. RODS замыкает цикл между обучением RL и генерацией данных, перепрофилируя дисперсию вознаграждения за прогресс как практический детектор границ с нулевой стоимостью, не требующий дополнительных выводов помимо прогонов, уже вычисленных для обучения. Он непрерывно идентифицирует такие граничные образцы, синтезирует новые многошаговые варианты, соответствующие их структурной сложности (например, топология API и глубина зависимостей), с помощью конвейера повторной выборки, согласованного с навыками, и управляет динамическим буфером воспроизведения, который совместно развивается с политикой. Начиная с 400 человеческих начальных образцов и поддерживая активный обучающий пул из ~800 образцов, RODS достигает производительности, сравнимой с офлайн-конвейером из 17 тыс. образцов, требуя при этом примерно в 20 раз меньше траекторий, и превосходит RL с фиксированными данными и дополнением среды в наших контролируемых условиях.

English

Multi-turn tool-use RL is bottlenecked by the rapid depletion of informative samples in static datasets. We observe that the gradient signal in GRPO concentrates on tasks with the highest rollout reward variance, a consequence of the Popoviciu upper bound. Consequently, samples near the agent's capability boundary -- where successes and failures are roughly balanced -- contribute disproportionately large policy gradients. As training progresses, this boundary continuously shifts, which gradually depletes the pool of informative samples in a static dataset. We propose RODS (Reward-driven Online Data Synthesis) to resolve this depletion. RODS closes the loop between RL training and data generation by repurposing the progress reward variance as a practical, zero-cost boundary detector that requires no extra inference beyond the rollouts already computed for training. It continuously identifies such boundary samples, synthesizes new multi-turn variants matching their structural complexity (e.g., API topology and dependency depth) via a skill-aligned resampling pipeline, and manages a dynamic replay buffer that co-evolves with the policy. Starting from 400 human seeds and maintaining an active training pool of ~800 samples, RODS achieves comparable performance to a 17K-sample offline pipeline while requiring roughly 20x fewer trajectories, and improves over fixed-data RL and environment augmentation in our controlled setting.