FlowRL: Allineamento delle Distribuzioni di Ricompensa per il Ragionamento con Modelli Linguistici di Grande Scala

Abstract

Proponiamo FlowRL: bilanciamento del flusso per corrispondere all'intera distribuzione di ricompensa, anziché massimizzare le ricompense nell'apprendimento per rinforzo (RL) di modelli linguistici di grandi dimensioni (LLM). I recenti modelli avanzati di ragionamento adottano metodi di massimizzazione delle ricompense (ad esempio, PPO e GRPO), che tendono a sovra-ottimizzare i segnali di ricompensa dominanti trascurando percorsi di ragionamento meno frequenti ma validi, riducendo così la diversità. Al contrario, trasformiamo le ricompense scalari in una distribuzione target normalizzata utilizzando una funzione di partizione apprendibile, e poi minimizziamo la divergenza KL inversa tra la politica e la distribuzione target. Implementiamo questa idea come un metodo di ottimizzazione bilanciato dal flusso che promuove un'esplorazione diversificata e traiettorie di ragionamento generalizzabili. Condividiamo esperimenti su compiti di ragionamento matematico e di codice: FlowRL ottiene un miglioramento medio significativo del 10,0% rispetto a GRPO e del 5,1% rispetto a PPO sui benchmark matematici, e si comporta costantemente meglio nei compiti di ragionamento di codice. Questi risultati evidenziano la corrispondenza della distribuzione di ricompensa come un passo chiave verso un'esplorazione efficiente e un ragionamento diversificato nell'apprendimento per rinforzo di LLM.

English

We propose FlowRL: matching the full reward distribution via flow balancing instead of maximizing rewards in large language model (LLM) reinforcement learning (RL). Recent advanced reasoning models adopt reward-maximizing methods (\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while neglecting less frequent but valid reasoning paths, thus reducing diversity. In contrast, we transform scalar rewards into a normalized target distribution using a learnable partition function, and then minimize the reverse KL divergence between the policy and the target distribution. We implement this idea as a flow-balanced optimization method that promotes diverse exploration and generalizable reasoning trajectories. We conduct experiments on math and code reasoning tasks: FlowRL achieves a significant average improvement of 10.0% over GRPO and 5.1% over PPO on math benchmarks, and performs consistently better on code reasoning tasks. These results highlight reward distribution-matching as a key step toward efficient exploration and diverse reasoning in LLM reinforcement learning.

FlowRL: Allineamento delle Distribuzioni di Ricompensa per il Ragionamento con Modelli Linguistici di Grande Scala

FlowRL: Matching Reward Distributions for LLM Reasoning

Abstract

Support