RLFR: Uitbreiding van Reinforcement Learning voor LLM's met Flow-omgeving
RLFR: Extending Reinforcement Learning for LLMs with Flow Environment
October 11, 2025
Auteurs: Jinghao Zhang, Naishan Zheng, Ruilin Li, Dongzhou Cheng, Zheming Liang, Feng Zhao, Jiaqi Wang
cs.AI
Samenvatting
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is recent naar voren gekomen als een veelbelovend raamwerk voor het verbeteren van redeneervaardigheden in Grote Taalmodellen (LLMs). Echter, een beleid dat geoptimaliseerd is met binaire verificatie heeft de neiging om waardevolle verkenning in het redeneertraject over het hoofd te zien. Gezien de hoge annotatiekosten van gouden Proces Beloningsmodellen (PRMs), hebben recente werken geprobeerd om hulpsignalen te gebruiken voor het vormen van beloningen voor proces tokens, waarbij entropie en waarschijnlijkheid verzameld uit de logit-ruimte betrokken zijn. In dit werk bieden we een nieuw perspectief op het vormen van RLVR met stroombeloningen afgeleid uit de latente ruimte, en stellen we RLFR voor, waarbij de stroomvelden van model latents worden geconstrueerd uit off-policy hoogwaardige data en on-policy afwijzingssteekproefdata, en de snelheidsafwijkingen van beleids latents daarin worden gekwantificeerd om als beloningssignaal te dienen. RLFR toont eerst aan dat een goed gevestigd stroomveld een geschikte omgeving kan zijn voor het verzamelen van beloningssignalen, wat benadrukt dat de expressieve latente ruimte sterk onderbenut is. Bovendien is RLFR in staat om off-policy expertdata te comprimeren als referentie voor het vormen van beloningssignalen, en we laten zien dat de efficiënte contextafhankelijkheid die in de verborgen toestanden is gecomprimeerd, wordt benut, in plaats van individuele token-level aanduidingen voor contextbegrip. Experimenten op zowel taal- als multimodale redeneerbenchmarks demonstreren de betrouwbaarheid van stroombeloningen, en suggereren een veelbelovend paradigma voor het vormen van beloningen met hulpsignalen.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as
a promising framework for improving reasoning abilities in Large Language
Models (LLMs). However, policy optimized with binary verification prone to
overlook potential valuable exploration in reasoning trajectory. In view of
heavy annotation cost of golden Process Reward Models (PRMs), recent works
attempt using auxiliary signals for reward shaping of process tokens, involving
entropy and likelihood collected from logit space. In this work, we offer a
novel perspective on shaping RLVR with flow rewards derived from latent space,
and propose RLFR, where the flow fields of model latents are constructed from
either off-policy high-quality data and on-policy rejection sampling data, and
the velocity deviations of policy latents within it are quantified to serve as
a reward signal. RLFR first demonstrates that a well-established flow field can
be a sound environment for reward signal collection, highlighting the
expressive latent space is much underexplored. Moreover, RLFR is able to
compress any off-policy expert data as reference for constituting reward
signals, and we show that the efficient context dependence compressed within
the hidden states are utilized, rather than individual token-level denotation
for context comprehending. Experiments on both language and multimodal
reasoning benchmarks demonstrate the reliability of flow rewards, and
suggesting a promising paradigm for reward shaping with auxiliary signals.