FlowRL: Allineamento delle Distribuzioni di Ricompensa per il Ragionamento con Modelli Linguistici di Grande Scala
FlowRL: Matching Reward Distributions for LLM Reasoning
September 18, 2025
Autori: Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Bo Xue, Yunchong Song, Zhenjie Yang, Ganqu Cui, Ning Ding, Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin
cs.AI
Abstract
Proponiamo FlowRL: bilanciamento del flusso per corrispondere all'intera distribuzione di ricompensa, anziché massimizzare le ricompense nell'apprendimento per rinforzo (RL) di modelli linguistici di grandi dimensioni (LLM). I recenti modelli avanzati di ragionamento adottano metodi di massimizzazione delle ricompense (ad esempio, PPO e GRPO), che tendono a sovra-ottimizzare i segnali di ricompensa dominanti trascurando percorsi di ragionamento meno frequenti ma validi, riducendo così la diversità. Al contrario, trasformiamo le ricompense scalari in una distribuzione target normalizzata utilizzando una funzione di partizione apprendibile, e poi minimizziamo la divergenza KL inversa tra la politica e la distribuzione target. Implementiamo questa idea come un metodo di ottimizzazione bilanciato dal flusso che promuove un'esplorazione diversificata e traiettorie di ragionamento generalizzabili. Condividiamo esperimenti su compiti di ragionamento matematico e di codice: FlowRL ottiene un miglioramento medio significativo del 10,0% rispetto a GRPO e del 5,1% rispetto a PPO sui benchmark matematici, e si comporta costantemente meglio nei compiti di ragionamento di codice. Questi risultati evidenziano la corrispondenza della distribuzione di ricompensa come un passo chiave verso un'esplorazione efficiente e un ragionamento diversificato nell'apprendimento per rinforzo di LLM.
English
We propose FlowRL: matching the full reward distribution via flow balancing
instead of maximizing rewards in large language model (LLM) reinforcement
learning (RL). Recent advanced reasoning models adopt reward-maximizing methods
(\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while
neglecting less frequent but valid reasoning paths, thus reducing diversity. In
contrast, we transform scalar rewards into a normalized target distribution
using a learnable partition function, and then minimize the reverse KL
divergence between the policy and the target distribution. We implement this
idea as a flow-balanced optimization method that promotes diverse exploration
and generalizable reasoning trajectories. We conduct experiments on math and
code reasoning tasks: FlowRL achieves a significant average improvement of
10.0% over GRPO and 5.1% over PPO on math benchmarks, and performs
consistently better on code reasoning tasks. These results highlight reward
distribution-matching as a key step toward efficient exploration and diverse
reasoning in LLM reinforcement learning.