FlowRL: Correspondência de Distribuições de Recompensa para Raciocínio em LLMs

Resumo

Propomos o FlowRL: correspondência da distribuição completa de recompensas por meio de balanceamento de fluxo, em vez de maximizar recompensas no aprendizado por reforço (RL) de modelos de linguagem de grande escala (LLM). Modelos avançados de raciocínio recentes adotam métodos de maximização de recompensas (\eg, PPO e GRPO), que tendem a otimizar excessivamente sinais de recompensa dominantes enquanto negligenciam caminhos de raciocínio menos frequentes, porém válidos, reduzindo assim a diversidade. Em contraste, transformamos recompensas escalares em uma distribuição alvo normalizada usando uma função de partição aprendível e, em seguida, minimizamos a divergência KL reversa entre a política e a distribuição alvo. Implementamos essa ideia como um método de otimização balanceada por fluxo que promove exploração diversificada e trajetórias de raciocínio generalizáveis. Realizamos experimentos em tarefas de raciocínio matemático e de código: o FlowRL alcança uma melhoria média significativa de 10,0% em relação ao GRPO e 5,1% em relação ao PPO em benchmarks matemáticos, e apresenta desempenho consistentemente melhor em tarefas de raciocínio de código. Esses resultados destacam a correspondência da distribuição de recompensas como um passo crucial para exploração eficiente e raciocínio diversificado no aprendizado por reforço de LLMs.

English

We propose FlowRL: matching the full reward distribution via flow balancing instead of maximizing rewards in large language model (LLM) reinforcement learning (RL). Recent advanced reasoning models adopt reward-maximizing methods (\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while neglecting less frequent but valid reasoning paths, thus reducing diversity. In contrast, we transform scalar rewards into a normalized target distribution using a learnable partition function, and then minimize the reverse KL divergence between the policy and the target distribution. We implement this idea as a flow-balanced optimization method that promotes diverse exploration and generalizable reasoning trajectories. We conduct experiments on math and code reasoning tasks: FlowRL achieves a significant average improvement of 10.0% over GRPO and 5.1% over PPO on math benchmarks, and performs consistently better on code reasoning tasks. These results highlight reward distribution-matching as a key step toward efficient exploration and diverse reasoning in LLM reinforcement learning.

FlowRL: Correspondência de Distribuições de Recompensa para Raciocínio em LLMs

FlowRL: Matching Reward Distributions for LLM Reasoning

Resumo

Support