V_{0.5}: Универсальная ценностная модель в качестве априорного распределения для разреженных rollout-ов обучения с подкреплением

Аннотация

В обучении с подкреплением с верифицируемыми вознаграждениями (RLVR) построение надежного базового преимущества критически важно для градиентов политики, эффективно направляя модель политики на закрепление желаемого поведения. В последних исследованиях были представлены модели ценности общего назначения (например, V₀), которые достигают предварительно обученной оценки ценности за счет явного кодирования возможностей модели в контексте, устраняя необходимость синхронного обновления модели ценности вместе с моделью политики. В данной статье мы предлагаем модель V₀.₅, которая адаптивно объединяет базовый уровень, предсказанный такой моделью ценности (выступающей в качестве априорного предположения), с эмпирическим средним, полученным из разреженных прогонов. Это создает надежный базовый уровень, балансирующий вычислительную эффективность с чрезвычайно низкой дисперсией. В частности, мы вводим процедуру статистического тестирования в реальном времени и динамического распределения бюджета. Это уравновешивает высокую дисперсию, вызванную разреженным сэмплированием, и систематическое смещение (или галлюцинации), присущие априорному предположению модели ценности. Путем построения статистического критерия для оценки надежности априорного предположения в реальном времени система динамически выделяет дополнительный бюджет на прогоны по требованию. Данный механизм минимизирует среднеквадратическую ошибку (СКО) оценки базового уровня, гарантируя стабильность градиентов политики даже в условиях экстремальной разреженности при размере группы, равном 4. Обширные оценки на шести тестовых наборах по математическим рассуждениям демонстрируют, что V₀.₅ значительно превосходит GRPO и DAPO, обеспечивая более быструю сходимость и улучшение производительности примерно на 10%.

English

In Reinforcement Learning with Verifiable Rewards (RLVR), constructing a robust advantage baseline is critical for policy gradients, effectively guiding the policy model to reinforce desired behaviors. Recent research has introduced Generalist Value Models (such as V_0), which achieve pre-trained value estimation by explicitly encoding model capabilities in-context, eliminating the need to synchronously update the value model alongside the policy model. In this paper, we propose V_{0.5}, which adaptively fuses the baseline predicted by such value model (acting as a prior) with the empirical mean derived from sparse rollouts. This constructs a robust baseline that balances computational efficiency with extremely low variance. Specifically, we introduce a real-time statistical testing and dynamic budget allocation. This balances the high variance caused by sparse sampling against the systematic bias (or hallucinations) inherent in the value model's prior. By constructing a hypothesis test to evaluate the prior's reliability in real-time, the system dynamically allocates additional rollout budget on demand. This mechanism minimizes the baseline estimator's Mean Squared Error (MSE), guaranteeing stable policy gradients, even under extreme sparsity with a group size of 4. Extensive evaluations across six mathematical reasoning benchmarks demonstrate that V_{0.5} significantly outperforms GRPO and DAPO, achieving faster convergence and over some 10% performance improvement.

V_{0.5}: Универсальная ценностная модель в качестве априорного распределения для разреженных rollout-ов обучения с подкреплением

V_{0.5}: Generalist Value Model as a Prior for Sparse RL Rollouts

Аннотация

Support