RLFR : Extension de l'apprentissage par renforcement pour les LLM avec un environnement de flux
RLFR: Extending Reinforcement Learning for LLMs with Flow Environment
October 11, 2025
papers.authors: Jinghao Zhang, Naishan Zheng, Ruilin Li, Dongzhou Cheng, Zheming Liang, Feng Zhao, Jiaqi Wang
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a récemment émergé comme un cadre prometteur pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, les politiques optimisées avec une vérification binaire ont tendance à négliger une exploration potentiellement précieuse dans la trajectoire de raisonnement. Compte tenu du coût élevé d'annotation des modèles de récompense de processus de référence (PRM), les travaux récents tentent d'utiliser des signaux auxiliaires pour façonner les récompenses des jetons de processus, impliquant l'entropie et la vraisemblance collectées à partir de l'espace des logits. Dans ce travail, nous proposons une nouvelle perspective sur le façonnage du RLVR avec des récompenses de flux dérivées de l'espace latent, et introduisons RLFR, où les champs de flux des latents du modèle sont construits à partir de données de haute qualité hors politique et de données d'échantillonnage par rejet en politique, et où les écarts de vitesse des latents de politique au sein de ces champs sont quantifiés pour servir de signal de récompense. RLFR démontre d'abord qu'un champ de flux bien établi peut constituer un environnement solide pour la collecte de signaux de récompense, mettant en évidence que l'espace latent expressif est largement sous-exploité. De plus, RLFR est capable de compresser toute donnée experte hors politique comme référence pour constituer des signaux de récompense, et nous montrons que la dépendance contextuelle efficace compressée dans les états cachés est utilisée, plutôt que la dénotation au niveau des jetons individuels pour la compréhension du contexte. Les expériences sur des benchmarks de raisonnement linguistique et multimodal démontrent la fiabilité des récompenses de flux, et suggèrent un paradigme prometteur pour le façonnage des récompenses avec des signaux auxiliaires.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as
a promising framework for improving reasoning abilities in Large Language
Models (LLMs). However, policy optimized with binary verification prone to
overlook potential valuable exploration in reasoning trajectory. In view of
heavy annotation cost of golden Process Reward Models (PRMs), recent works
attempt using auxiliary signals for reward shaping of process tokens, involving
entropy and likelihood collected from logit space. In this work, we offer a
novel perspective on shaping RLVR with flow rewards derived from latent space,
and propose RLFR, where the flow fields of model latents are constructed from
either off-policy high-quality data and on-policy rejection sampling data, and
the velocity deviations of policy latents within it are quantified to serve as
a reward signal. RLFR first demonstrates that a well-established flow field can
be a sound environment for reward signal collection, highlighting the
expressive latent space is much underexplored. Moreover, RLFR is able to
compress any off-policy expert data as reference for constituting reward
signals, and we show that the efficient context dependence compressed within
the hidden states are utilized, rather than individual token-level denotation
for context comprehending. Experiments on both language and multimodal
reasoning benchmarks demonstrate the reliability of flow rewards, and
suggesting a promising paradigm for reward shaping with auxiliary signals.