RLFR: Extensión del Aprendizaje por Refuerzo para LLMs con Entorno de Flujo
RLFR: Extending Reinforcement Learning for LLMs with Flow Environment
October 11, 2025
Autores: Jinghao Zhang, Naishan Zheng, Ruilin Li, Dongzhou Cheng, Zheming Liang, Feng Zhao, Jiaqi Wang
cs.AI
Resumen
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) ha surgido recientemente como un marco prometedor para mejorar las capacidades de razonamiento en los Modelos de Lenguaje de Gran Escala (LLMs). Sin embargo, las políticas optimizadas con verificación binaria tienden a pasar por alto exploraciones potencialmente valiosas en la trayectoria de razonamiento. Dado el alto costo de anotación de los Modelos de Recompensa de Proceso (PRMs) de referencia, trabajos recientes intentan utilizar señales auxiliares para moldear las recompensas de los tokens de proceso, involucrando entropía y verosimilitud recolectadas del espacio de logits. En este trabajo, ofrecemos una perspectiva novedosa sobre el moldeado de RLVR con recompensas de flujo derivadas del espacio latente, y proponemos RLFR, donde los campos de flujo de los latentes del modelo se construyen a partir de datos de alta calidad fuera de la política y datos de muestreo por rechazo dentro de la política, y las desviaciones de velocidad de los latentes de la política dentro de este campo se cuantifican para servir como señal de recompensa. RLFR demuestra primero que un campo de flujo bien establecido puede ser un entorno sólido para la recolección de señales de recompensa, destacando que el espacio latente expresivo está muy poco explorado. Además, RLFR es capaz de comprimir cualquier dato experto fuera de la política como referencia para constituir señales de recompensa, y mostramos que se utiliza la dependencia contextual eficiente comprimida dentro de los estados ocultos, en lugar de la denotación a nivel de tokens individuales para la comprensión del contexto. Los experimentos en benchmarks de razonamiento tanto de lenguaje como multimodal demuestran la confiabilidad de las recompensas de flujo, sugiriendo un paradigma prometedor para el moldeado de recompensas con señales auxiliares.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as
a promising framework for improving reasoning abilities in Large Language
Models (LLMs). However, policy optimized with binary verification prone to
overlook potential valuable exploration in reasoning trajectory. In view of
heavy annotation cost of golden Process Reward Models (PRMs), recent works
attempt using auxiliary signals for reward shaping of process tokens, involving
entropy and likelihood collected from logit space. In this work, we offer a
novel perspective on shaping RLVR with flow rewards derived from latent space,
and propose RLFR, where the flow fields of model latents are constructed from
either off-policy high-quality data and on-policy rejection sampling data, and
the velocity deviations of policy latents within it are quantified to serve as
a reward signal. RLFR first demonstrates that a well-established flow field can
be a sound environment for reward signal collection, highlighting the
expressive latent space is much underexplored. Moreover, RLFR is able to
compress any off-policy expert data as reference for constituting reward
signals, and we show that the efficient context dependence compressed within
the hidden states are utilized, rather than individual token-level denotation
for context comprehending. Experiments on both language and multimodal
reasoning benchmarks demonstrate the reliability of flow rewards, and
suggesting a promising paradigm for reward shaping with auxiliary signals.