FlowRL: Сопоставление распределений вознаграждений для рассуждений в больших языковых моделях
FlowRL: Matching Reward Distributions for LLM Reasoning
September 18, 2025
Авторы: Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Bo Xue, Yunchong Song, Zhenjie Yang, Ganqu Cui, Ning Ding, Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin
cs.AI
Аннотация
Мы предлагаем FlowRL: метод, который сопоставляет полное распределение вознаграждений через балансировку потоков вместо максимизации вознаграждений в обучении с подкреплением (RL) для больших языковых моделей (LLM). Современные модели продвинутого рассуждения используют методы максимизации вознаграждений (например, PPO и GRPO), которые склонны к чрезмерной оптимизации доминирующих сигналов вознаграждения, игнорируя менее частые, но допустимые пути рассуждения, что снижает разнообразие. В отличие от этого, мы преобразуем скалярные вознаграждения в нормализованное целевое распределение с использованием обучаемой функции разбиения, а затем минимизируем обратную дивергенцию Кульбака-Лейблера между политикой и целевым распределением. Мы реализуем эту идею как метод оптимизации с балансировкой потоков, который способствует разнообразному исследованию и обобщаемым траекториям рассуждения. Мы проводим эксперименты на задачах математического и программного рассуждения: FlowRL демонстрирует значительное среднее улучшение на 10,0% по сравнению с GRPO и на 5,1% по сравнению с PPO на математических бенчмарках, а также стабильно лучше справляется с задачами программного рассуждения. Эти результаты подчеркивают, что сопоставление распределения вознаграждений является ключевым шагом к эффективному исследованию и разнообразному рассуждению в обучении с подкреплением для LLM.
English
We propose FlowRL: matching the full reward distribution via flow balancing
instead of maximizing rewards in large language model (LLM) reinforcement
learning (RL). Recent advanced reasoning models adopt reward-maximizing methods
(\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while
neglecting less frequent but valid reasoning paths, thus reducing diversity. In
contrast, we transform scalar rewards into a normalized target distribution
using a learnable partition function, and then minimize the reverse KL
divergence between the policy and the target distribution. We implement this
idea as a flow-balanced optimization method that promotes diverse exploration
and generalizable reasoning trajectories. We conduct experiments on math and
code reasoning tasks: FlowRL achieves a significant average improvement of
10.0% over GRPO and 5.1% over PPO on math benchmarks, and performs
consistently better on code reasoning tasks. These results highlight reward
distribution-matching as a key step toward efficient exploration and diverse
reasoning in LLM reinforcement learning.