FlowRL: Сопоставление распределений вознаграждений для рассуждений в больших языковых моделях

Аннотация

Мы предлагаем FlowRL: метод, который сопоставляет полное распределение вознаграждений через балансировку потоков вместо максимизации вознаграждений в обучении с подкреплением (RL) для больших языковых моделей (LLM). Современные модели продвинутого рассуждения используют методы максимизации вознаграждений (например, PPO и GRPO), которые склонны к чрезмерной оптимизации доминирующих сигналов вознаграждения, игнорируя менее частые, но допустимые пути рассуждения, что снижает разнообразие. В отличие от этого, мы преобразуем скалярные вознаграждения в нормализованное целевое распределение с использованием обучаемой функции разбиения, а затем минимизируем обратную дивергенцию Кульбака-Лейблера между политикой и целевым распределением. Мы реализуем эту идею как метод оптимизации с балансировкой потоков, который способствует разнообразному исследованию и обобщаемым траекториям рассуждения. Мы проводим эксперименты на задачах математического и программного рассуждения: FlowRL демонстрирует значительное среднее улучшение на 10,0% по сравнению с GRPO и на 5,1% по сравнению с PPO на математических бенчмарках, а также стабильно лучше справляется с задачами программного рассуждения. Эти результаты подчеркивают, что сопоставление распределения вознаграждений является ключевым шагом к эффективному исследованию и разнообразному рассуждению в обучении с подкреплением для LLM.

English

We propose FlowRL: matching the full reward distribution via flow balancing instead of maximizing rewards in large language model (LLM) reinforcement learning (RL). Recent advanced reasoning models adopt reward-maximizing methods (\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while neglecting less frequent but valid reasoning paths, thus reducing diversity. In contrast, we transform scalar rewards into a normalized target distribution using a learnable partition function, and then minimize the reverse KL divergence between the policy and the target distribution. We implement this idea as a flow-balanced optimization method that promotes diverse exploration and generalizable reasoning trajectories. We conduct experiments on math and code reasoning tasks: FlowRL achieves a significant average improvement of 10.0% over GRPO and 5.1% over PPO on math benchmarks, and performs consistently better on code reasoning tasks. These results highlight reward distribution-matching as a key step toward efficient exploration and diverse reasoning in LLM reinforcement learning.

FlowRL: Сопоставление распределений вознаграждений для рассуждений в больших языковых моделях

FlowRL: Matching Reward Distributions for LLM Reasoning

Аннотация

Support