ChatPaper.aiChatPaper

RLFR: Estendere l'Apprendimento per Rinforzo per LLM con Ambiente di Flusso

RLFR: Extending Reinforcement Learning for LLMs with Flow Environment

October 11, 2025
Autori: Jinghao Zhang, Naishan Zheng, Ruilin Li, Dongzhou Cheng, Zheming Liang, Feng Zhao, Jiaqi Wang
cs.AI

Abstract

Il Reinforcement Learning con Ricompense Verificabili (RLVR) è emerso recentemente come un quadro promettente per migliorare le capacità di ragionamento nei Modelli Linguistici di Grande Scala (LLM). Tuttavia, le politiche ottimizzate con verifica binaria tendono a trascurare esplorazioni potenzialmente preziose nel percorso di ragionamento. Considerando l'elevato costo di annotazione dei Modelli di Ricompensa del Processo (PRM) di riferimento, lavori recenti hanno tentato di utilizzare segnali ausiliari per modellare le ricompense dei token di processo, coinvolgendo entropia e verosimiglianza raccolte dallo spazio dei logit. In questo lavoro, offriamo una nuova prospettiva sulla modellazione dell'RLVR con ricompense di flusso derivate dallo spazio latente e proponiamo RLFR, in cui i campi di flusso dei latenti del modello sono costruiti sia da dati di alta qualità off-policy che da dati di campionamento per rifiuto on-policy, e le deviazioni di velocità dei latenti della politica all'interno di esso vengono quantificate per servire come segnale di ricompensa. RLFR dimostra innanzitutto che un campo di flusso ben consolidato può essere un ambiente solido per la raccolta di segnali di ricompensa, evidenziando come lo spazio latente espressivo sia ancora largamente inesplorato. Inoltre, RLFR è in grado di comprimere qualsiasi dato esperto off-policy come riferimento per costituire segnali di ricompensa, e mostriamo che viene sfruttata la dipendenza contestuale efficiente compressa all'interno degli stati nascosti, piuttosto che la denotazione a livello di singolo token per la comprensione del contesto. Esperimenti su benchmark di ragionamento linguistico e multimodale dimostrano l'affidabilità delle ricompense di flusso e suggeriscono un paradigma promettente per la modellazione delle ricompense con segnali ausiliari.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as a promising framework for improving reasoning abilities in Large Language Models (LLMs). However, policy optimized with binary verification prone to overlook potential valuable exploration in reasoning trajectory. In view of heavy annotation cost of golden Process Reward Models (PRMs), recent works attempt using auxiliary signals for reward shaping of process tokens, involving entropy and likelihood collected from logit space. In this work, we offer a novel perspective on shaping RLVR with flow rewards derived from latent space, and propose RLFR, where the flow fields of model latents are constructed from either off-policy high-quality data and on-policy rejection sampling data, and the velocity deviations of policy latents within it are quantified to serve as a reward signal. RLFR first demonstrates that a well-established flow field can be a sound environment for reward signal collection, highlighting the expressive latent space is much underexplored. Moreover, RLFR is able to compress any off-policy expert data as reference for constituting reward signals, and we show that the efficient context dependence compressed within the hidden states are utilized, rather than individual token-level denotation for context comprehending. Experiments on both language and multimodal reasoning benchmarks demonstrate the reliability of flow rewards, and suggesting a promising paradigm for reward shaping with auxiliary signals.
PDF352October 14, 2025