FlowRL : Alignement des distributions de récompense pour le raisonnement des modèles de langage
FlowRL: Matching Reward Distributions for LLM Reasoning
September 18, 2025
papers.authors: Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Bo Xue, Yunchong Song, Zhenjie Yang, Ganqu Cui, Ning Ding, Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin
cs.AI
papers.abstract
Nous proposons FlowRL : une méthode d'alignement de la distribution complète des récompenses par équilibrage des flux, plutôt que la maximisation des récompenses dans l'apprentissage par renforcement (RL) des grands modèles de langage (LLM). Les modèles récents de raisonnement avancé adoptent des méthodes de maximisation des récompenses (par exemple, PPO et GRPO), qui ont tendance à sur-optimiser les signaux de récompense dominants tout en négligeant les chemins de raisonnement moins fréquents mais valides, réduisant ainsi la diversité. En revanche, nous transformons les récompenses scalaires en une distribution cible normalisée à l'aide d'une fonction de partition apprenable, puis minimisons la divergence KL inverse entre la politique et la distribution cible. Nous implémentons cette idée sous la forme d'une méthode d'optimisation par équilibrage des flux qui favorise une exploration diversifiée et des trajectoires de raisonnement généralisables. Nous menons des expériences sur des tâches de raisonnement mathématique et de code : FlowRL obtient une amélioration moyenne significative de 10,0 % par rapport à GRPO et de 5,1 % par rapport à PPO sur les benchmarks mathématiques, et performe systématiquement mieux sur les tâches de raisonnement de code. Ces résultats mettent en évidence l'alignement de la distribution des récompenses comme une étape clé vers une exploration efficace et un raisonnement diversifié dans l'apprentissage par renforcement des LLM.
English
We propose FlowRL: matching the full reward distribution via flow balancing
instead of maximizing rewards in large language model (LLM) reinforcement
learning (RL). Recent advanced reasoning models adopt reward-maximizing methods
(\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while
neglecting less frequent but valid reasoning paths, thus reducing diversity. In
contrast, we transform scalar rewards into a normalized target distribution
using a learnable partition function, and then minimize the reverse KL
divergence between the policy and the target distribution. We implement this
idea as a flow-balanced optimization method that promotes diverse exploration
and generalizable reasoning trajectories. We conduct experiments on math and
code reasoning tasks: FlowRL achieves a significant average improvement of
10.0% over GRPO and 5.1% over PPO on math benchmarks, and performs
consistently better on code reasoning tasks. These results highlight reward
distribution-matching as a key step toward efficient exploration and diverse
reasoning in LLM reinforcement learning.