FlowRL: Afstemming van Beloningsverdelingen voor LLM-redenering

Samenvatting

We stellen FlowRL voor: het afstemmen van de volledige beloningsverdeling via flow balancing in plaats van het maximaliseren van beloningen bij reinforcement learning (RL) voor grote taalmmodellen (LLM's). Recente geavanceerde redeneermodellen gebruiken beloning-maximaliserende methoden (bijv. PPO en GRPO), die de neiging hebben dominante beloningssignalen te overoptimaliseren terwijl minder frequente maar geldige redeneerpaden worden verwaarloosd, wat de diversiteit vermindert. In tegenstelling hiermee transformeren we scalaire beloningen in een genormaliseerde doelverdeling met behulp van een leerbare partitiefunctie, en minimaliseren we vervolgens de reverse KL-divergentie tussen het beleid en de doelverdeling. We implementeren dit idee als een flow-gebalanceerde optimalisatiemethode die diverse exploratie en generaliseerbare redeneertrajecten bevordert. We voeren experimenten uit op wiskundige en coderingsredeneertaken: FlowRL behaalt een significante gemiddelde verbetering van 10,0% ten opzichte van GRPO en 5,1% ten opzichte van PPO op wiskundige benchmarks, en presteert consistent beter op coderingsredeneertaken. Deze resultaten benadrukken het afstemmen van beloningsverdelingen als een cruciale stap naar efficiënte exploratie en diverse redenering in LLM-reinforcement learning.

English

We propose FlowRL: matching the full reward distribution via flow balancing instead of maximizing rewards in large language model (LLM) reinforcement learning (RL). Recent advanced reasoning models adopt reward-maximizing methods (\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while neglecting less frequent but valid reasoning paths, thus reducing diversity. In contrast, we transform scalar rewards into a normalized target distribution using a learnable partition function, and then minimize the reverse KL divergence between the policy and the target distribution. We implement this idea as a flow-balanced optimization method that promotes diverse exploration and generalizable reasoning trajectories. We conduct experiments on math and code reasoning tasks: FlowRL achieves a significant average improvement of 10.0% over GRPO and 5.1% over PPO on math benchmarks, and performs consistently better on code reasoning tasks. These results highlight reward distribution-matching as a key step toward efficient exploration and diverse reasoning in LLM reinforcement learning.

FlowRL: Afstemming van Beloningsverdelingen voor LLM-redenering

FlowRL: Matching Reward Distributions for LLM Reasoning

Samenvatting

Support