ChatPaper.aiChatPaper

FlowRL: Сопоставление распределений вознаграждений для рассуждений в больших языковых моделях

FlowRL: Matching Reward Distributions for LLM Reasoning

September 18, 2025
Авторы: Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Bo Xue, Yunchong Song, Zhenjie Yang, Ganqu Cui, Ning Ding, Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin
cs.AI

Аннотация

Мы предлагаем FlowRL: метод, который сопоставляет полное распределение вознаграждений через балансировку потоков вместо максимизации вознаграждений в обучении с подкреплением (RL) для больших языковых моделей (LLM). Современные модели продвинутого рассуждения используют методы максимизации вознаграждений (например, PPO и GRPO), которые склонны к чрезмерной оптимизации доминирующих сигналов вознаграждения, игнорируя менее частые, но допустимые пути рассуждения, что снижает разнообразие. В отличие от этого, мы преобразуем скалярные вознаграждения в нормализованное целевое распределение с использованием обучаемой функции разбиения, а затем минимизируем обратную дивергенцию Кульбака-Лейблера между политикой и целевым распределением. Мы реализуем эту идею как метод оптимизации с балансировкой потоков, который способствует разнообразному исследованию и обобщаемым траекториям рассуждения. Мы проводим эксперименты на задачах математического и программного рассуждения: FlowRL демонстрирует значительное среднее улучшение на 10,0% по сравнению с GRPO и на 5,1% по сравнению с PPO на математических бенчмарках, а также стабильно лучше справляется с задачами программного рассуждения. Эти результаты подчеркивают, что сопоставление распределения вознаграждений является ключевым шагом к эффективному исследованию и разнообразному рассуждению в обучении с подкреплением для LLM.
English
We propose FlowRL: matching the full reward distribution via flow balancing instead of maximizing rewards in large language model (LLM) reinforcement learning (RL). Recent advanced reasoning models adopt reward-maximizing methods (\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while neglecting less frequent but valid reasoning paths, thus reducing diversity. In contrast, we transform scalar rewards into a normalized target distribution using a learnable partition function, and then minimize the reverse KL divergence between the policy and the target distribution. We implement this idea as a flow-balanced optimization method that promotes diverse exploration and generalizable reasoning trajectories. We conduct experiments on math and code reasoning tasks: FlowRL achieves a significant average improvement of 10.0% over GRPO and 5.1% over PPO on math benchmarks, and performs consistently better on code reasoning tasks. These results highlight reward distribution-matching as a key step toward efficient exploration and diverse reasoning in LLM reinforcement learning.
PDF1036September 19, 2025