FlowRL: Abgleich von Belohnungsverteilungen für das Reasoning von großen Sprachmodellen

papers.abstract

Wir schlagen FlowRL vor: die Anpassung der vollständigen Belohnungsverteilung durch Flussbalancierung anstelle der Maximierung von Belohnungen im Reinforcement Learning (RL) für große Sprachmodelle (LLM). Aktuelle fortschrittliche Reasoning-Modelle verwenden belohnungsmaximierende Methoden (z.B. PPO und GRPO), die dazu neigen, dominante Belohnungssignale zu überoptimieren, während weniger häufige, aber gültige Reasoning-Pfade vernachlässigt werden, was die Diversität verringert. Im Gegensatz dazu transformieren wir skalare Belohnungen in eine normalisierte Zielverteilung mithilfe einer lernbaren Partitionierungsfunktion und minimieren dann die reverse KL-Divergenz zwischen der Policy und der Zielverteilung. Wir implementieren diesen Ansatz als eine flussbalancierte Optimierungsmethode, die vielfältige Exploration und generalisierbare Reasoning-Trajektorien fördert. Wir führen Experimente zu mathematischen und Code-Reasoning-Aufgaben durch: FlowRL erzielt eine signifikante durchschnittliche Verbesserung von 10,0 % gegenüber GRPO und 5,1 % gegenüber PPO auf mathematischen Benchmarks und schneidet durchweg besser bei Code-Reasoning-Aufgaben ab. Diese Ergebnisse unterstreichen die Anpassung der Belohnungsverteilung als einen entscheidenden Schritt hin zu effizienter Exploration und diversem Reasoning im LLM-Reinforcement-Learning.

English

We propose FlowRL: matching the full reward distribution via flow balancing instead of maximizing rewards in large language model (LLM) reinforcement learning (RL). Recent advanced reasoning models adopt reward-maximizing methods (\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while neglecting less frequent but valid reasoning paths, thus reducing diversity. In contrast, we transform scalar rewards into a normalized target distribution using a learnable partition function, and then minimize the reverse KL divergence between the policy and the target distribution. We implement this idea as a flow-balanced optimization method that promotes diverse exploration and generalizable reasoning trajectories. We conduct experiments on math and code reasoning tasks: FlowRL achieves a significant average improvement of 10.0% over GRPO and 5.1% over PPO on math benchmarks, and performs consistently better on code reasoning tasks. These results highlight reward distribution-matching as a key step toward efficient exploration and diverse reasoning in LLM reinforcement learning.

FlowRL: Abgleich von Belohnungsverteilungen für das Reasoning von großen Sprachmodellen

FlowRL: Matching Reward Distributions for LLM Reasoning

papers.abstract

Support