ChatPaper.aiChatPaper

RLFR: Expandindo o Aprendizado por Reforço para LLMs com Ambiente de Fluxo

RLFR: Extending Reinforcement Learning for LLMs with Flow Environment

October 11, 2025
Autores: Jinghao Zhang, Naishan Zheng, Ruilin Li, Dongzhou Cheng, Zheming Liang, Feng Zhao, Jiaqi Wang
cs.AI

Resumo

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) surgiu recentemente como uma estrutura promissora para melhorar as habilidades de raciocínio em Modelos de Linguagem de Grande Escala (LLMs). No entanto, políticas otimizadas com verificação binária tendem a negligenciar explorações potencialmente valiosas na trajetória de raciocínio. Diante do alto custo de anotação dos Modelos de Recompensa de Processo (PRMs) de referência, trabalhos recentes tentam utilizar sinais auxiliares para moldar a recompensa de tokens de processo, envolvendo entropia e verossimilhança coletadas do espaço de logits. Neste trabalho, oferecemos uma nova perspectiva sobre a modelagem do RLVR com recompensas de fluxo derivadas do espaço latente e propomos o RLFR, onde os campos de fluxo dos latentes do modelo são construídos a partir de dados de alta qualidade fora da política e de dados de amostragem por rejeição dentro da política, e os desvios de velocidade dos latentes da política dentro dele são quantificados para servir como sinal de recompensa. O RLFR demonstra primeiro que um campo de fluxo bem estabelecido pode ser um ambiente sólido para a coleta de sinais de recompensa, destacando que o espaço latente expressivo é muito pouco explorado. Além disso, o RLFR é capaz de comprimir quaisquer dados de especialistas fora da política como referência para constituir sinais de recompensa, e mostramos que a dependência contextual eficiente comprimida dentro dos estados ocultos é utilizada, em vez da denotação individual em nível de token para a compreensão do contexto. Experimentos em benchmarks de raciocínio linguístico e multimodal demonstram a confiabilidade das recompensas de fluxo e sugerem um paradigma promissor para a modelagem de recompensas com sinais auxiliares.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a promising framework for improving reasoning abilities in Large Language Models (LLMs). However, policy optimized with binary verification prone to overlook potential valuable exploration in reasoning trajectory. In view of heavy annotation cost of golden Process Reward Models (PRMs), recent works attempt using auxiliary signals for reward shaping of process tokens, involving entropy and likelihood collected from logit space. In this work, we offer a novel perspective on shaping RLVR with flow rewards derived from latent space, and propose RLFR, where the flow fields of model latents are constructed from either off-policy high-quality data and on-policy rejection sampling data, and the velocity deviations of policy latents within it are quantified to serve as a reward signal. RLFR first demonstrates that a well-established flow field can be a sound environment for reward signal collection, highlighting the expressive latent space is much underexplored. Moreover, RLFR is able to compress any off-policy expert data as reference for constituting reward signals, and we show that the efficient context dependence compressed within the hidden states are utilized, rather than individual token-level denotation for context comprehending. Experiments on both language and multimodal reasoning benchmarks demonstrate the reliability of flow rewards, and suggesting a promising paradigm for reward shaping with auxiliary signals.
PDF352October 14, 2025