FlowRL: Afstemming van Beloningsverdelingen voor LLM-redenering
FlowRL: Matching Reward Distributions for LLM Reasoning
September 18, 2025
Auteurs: Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Bo Xue, Yunchong Song, Zhenjie Yang, Ganqu Cui, Ning Ding, Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin
cs.AI
Samenvatting
We stellen FlowRL voor: het afstemmen van de volledige beloningsverdeling via flow balancing in plaats van het maximaliseren van beloningen bij reinforcement learning (RL) voor grote taalmmodellen (LLM's). Recente geavanceerde redeneermodellen gebruiken beloning-maximaliserende methoden (bijv. PPO en GRPO), die de neiging hebben dominante beloningssignalen te overoptimaliseren terwijl minder frequente maar geldige redeneerpaden worden verwaarloosd, wat de diversiteit vermindert. In tegenstelling hiermee transformeren we scalaire beloningen in een genormaliseerde doelverdeling met behulp van een leerbare partitiefunctie, en minimaliseren we vervolgens de reverse KL-divergentie tussen het beleid en de doelverdeling. We implementeren dit idee als een flow-gebalanceerde optimalisatiemethode die diverse exploratie en generaliseerbare redeneertrajecten bevordert. We voeren experimenten uit op wiskundige en coderingsredeneertaken: FlowRL behaalt een significante gemiddelde verbetering van 10,0% ten opzichte van GRPO en 5,1% ten opzichte van PPO op wiskundige benchmarks, en presteert consistent beter op coderingsredeneertaken. Deze resultaten benadrukken het afstemmen van beloningsverdelingen als een cruciale stap naar efficiënte exploratie en diverse redenering in LLM-reinforcement learning.
English
We propose FlowRL: matching the full reward distribution via flow balancing
instead of maximizing rewards in large language model (LLM) reinforcement
learning (RL). Recent advanced reasoning models adopt reward-maximizing methods
(\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while
neglecting less frequent but valid reasoning paths, thus reducing diversity. In
contrast, we transform scalar rewards into a normalized target distribution
using a learnable partition function, and then minimize the reverse KL
divergence between the policy and the target distribution. We implement this
idea as a flow-balanced optimization method that promotes diverse exploration
and generalizable reasoning trajectories. We conduct experiments on math and
code reasoning tasks: FlowRL achieves a significant average improvement of
10.0% over GRPO and 5.1% over PPO on math benchmarks, and performs
consistently better on code reasoning tasks. These results highlight reward
distribution-matching as a key step toward efficient exploration and diverse
reasoning in LLM reinforcement learning.