ChatPaper.aiChatPaper

FlowRL: Abgleich von Belohnungsverteilungen für das Reasoning von großen Sprachmodellen

FlowRL: Matching Reward Distributions for LLM Reasoning

September 18, 2025
papers.authors: Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Bo Xue, Yunchong Song, Zhenjie Yang, Ganqu Cui, Ning Ding, Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin
cs.AI

papers.abstract

Wir schlagen FlowRL vor: die Anpassung der vollständigen Belohnungsverteilung durch Flussbalancierung anstelle der Maximierung von Belohnungen im Reinforcement Learning (RL) für große Sprachmodelle (LLM). Aktuelle fortschrittliche Reasoning-Modelle verwenden belohnungsmaximierende Methoden (z.B. PPO und GRPO), die dazu neigen, dominante Belohnungssignale zu überoptimieren, während weniger häufige, aber gültige Reasoning-Pfade vernachlässigt werden, was die Diversität verringert. Im Gegensatz dazu transformieren wir skalare Belohnungen in eine normalisierte Zielverteilung mithilfe einer lernbaren Partitionierungsfunktion und minimieren dann die reverse KL-Divergenz zwischen der Policy und der Zielverteilung. Wir implementieren diesen Ansatz als eine flussbalancierte Optimierungsmethode, die vielfältige Exploration und generalisierbare Reasoning-Trajektorien fördert. Wir führen Experimente zu mathematischen und Code-Reasoning-Aufgaben durch: FlowRL erzielt eine signifikante durchschnittliche Verbesserung von 10,0 % gegenüber GRPO und 5,1 % gegenüber PPO auf mathematischen Benchmarks und schneidet durchweg besser bei Code-Reasoning-Aufgaben ab. Diese Ergebnisse unterstreichen die Anpassung der Belohnungsverteilung als einen entscheidenden Schritt hin zu effizienter Exploration und diversem Reasoning im LLM-Reinforcement-Learning.
English
We propose FlowRL: matching the full reward distribution via flow balancing instead of maximizing rewards in large language model (LLM) reinforcement learning (RL). Recent advanced reasoning models adopt reward-maximizing methods (\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while neglecting less frequent but valid reasoning paths, thus reducing diversity. In contrast, we transform scalar rewards into a normalized target distribution using a learnable partition function, and then minimize the reverse KL divergence between the policy and the target distribution. We implement this idea as a flow-balanced optimization method that promotes diverse exploration and generalizable reasoning trajectories. We conduct experiments on math and code reasoning tasks: FlowRL achieves a significant average improvement of 10.0% over GRPO and 5.1% over PPO on math benchmarks, and performs consistently better on code reasoning tasks. These results highlight reward distribution-matching as a key step toward efficient exploration and diverse reasoning in LLM reinforcement learning.
PDF1036September 19, 2025