ChatPaper.aiChatPaper

FlowRL: Alineación de Distribuciones de Recompensa para el Razonamiento en Modelos de Lenguaje

FlowRL: Matching Reward Distributions for LLM Reasoning

September 18, 2025
Autores: Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Bo Xue, Yunchong Song, Zhenjie Yang, Ganqu Cui, Ning Ding, Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin
cs.AI

Resumen

Proponemos FlowRL: igualar la distribución completa de recompensas mediante el equilibrio de flujos en lugar de maximizar las recompensas en el aprendizaje por refuerzo (RL) de modelos de lenguaje grandes (LLM). Los modelos avanzados de razonamiento recientes adoptan métodos de maximización de recompensas (por ejemplo, PPO y GRPO), que tienden a sobreoptimizar las señales de recompensa dominantes mientras descuidan rutas de razonamiento menos frecuentes pero válidas, reduciendo así la diversidad. En contraste, transformamos las recompensas escalares en una distribución objetivo normalizada utilizando una función de partición aprendible, y luego minimizamos la divergencia KL inversa entre la política y la distribución objetivo. Implementamos esta idea como un método de optimización equilibrado por flujos que promueve una exploración diversa y trayectorias de razonamiento generalizables. Realizamos experimentos en tareas de razonamiento matemático y de código: FlowRL logra una mejora promedio significativa del 10.0% sobre GRPO y del 5.1% sobre PPO en benchmarks matemáticos, y se desempeña consistentemente mejor en tareas de razonamiento de código. Estos resultados destacan la igualación de la distribución de recompensas como un paso clave hacia una exploración eficiente y un razonamiento diverso en el aprendizaje por refuerzo de LLM.
English
We propose FlowRL: matching the full reward distribution via flow balancing instead of maximizing rewards in large language model (LLM) reinforcement learning (RL). Recent advanced reasoning models adopt reward-maximizing methods (\eg, PPO and GRPO), which tend to over-optimize dominant reward signals while neglecting less frequent but valid reasoning paths, thus reducing diversity. In contrast, we transform scalar rewards into a normalized target distribution using a learnable partition function, and then minimize the reverse KL divergence between the policy and the target distribution. We implement this idea as a flow-balanced optimization method that promotes diverse exploration and generalizable reasoning trajectories. We conduct experiments on math and code reasoning tasks: FlowRL achieves a significant average improvement of 10.0% over GRPO and 5.1% over PPO on math benchmarks, and performs consistently better on code reasoning tasks. These results highlight reward distribution-matching as a key step toward efficient exploration and diverse reasoning in LLM reinforcement learning.
PDF1036September 19, 2025