RLFR: 흐름 환경을 활용한 LLM 강화 학습 확장
RLFR: Extending Reinforcement Learning for LLMs with Flow Environment
October 11, 2025
저자: Jinghao Zhang, Naishan Zheng, Ruilin Li, Dongzhou Cheng, Zheming Liang, Feng Zhao, Jiaqi Wang
cs.AI
초록
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 최근 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키기 위한 유망한 프레임워크로 부상했습니다. 그러나 이진 검증에 최적화된 정책은 추론 경로에서 잠재적으로 가치 있는 탐색을 간과하기 쉽습니다. 정교한 과정 보상 모델(Process Reward Models, PRMs)의 높은 주석 비용을 고려하여, 최근 연구들은 엔트로피와 로짓 공간에서 수집된 가능도와 같은 보조 신호를 활용하여 과정 토큰의 보상 형성에 접근하고 있습니다. 본 연구에서는 잠재 공간에서 유도된 흐름 보상을 통해 RLVR을 형성하는 새로운 관점을 제시하고, RLFR(Reinforcement Learning with Flow Rewards)을 제안합니다. 여기서는 오프-정책 고품질 데이터와 온-정책 거부 샘플링 데이터로부터 모델 잠재의 흐름 필드를 구성하고, 그 안에서 정책 잠재의 속도 편차를 정량화하여 보상 신호로 활용합니다. RLFR은 먼저 잘 구축된 흐름 필드가 보상 신호 수집을 위한 적절한 환경이 될 수 있음을 입증하며, 표현력이 풍부한 잠재 공간이 아직 충분히 탐구되지 않았음을 강조합니다. 더욱이, RLFR은 오프-정책 전문가 데이터를 보상 신호 구성의 참조로 압축할 수 있으며, 우리는 숨겨진 상태 내에 압축된 효율적인 문맥 의존성이 개별 토큰 수준의 표시보다 문맥 이해에 활용됨을 보여줍니다. 언어 및 다중 모달 추론 벤치마크에서의 실험은 흐름 보상의 신뢰성을 입증하며, 보조 신호를 활용한 보상 형성의 유망한 패러다임을 제시합니다.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as
a promising framework for improving reasoning abilities in Large Language
Models (LLMs). However, policy optimized with binary verification prone to
overlook potential valuable exploration in reasoning trajectory. In view of
heavy annotation cost of golden Process Reward Models (PRMs), recent works
attempt using auxiliary signals for reward shaping of process tokens, involving
entropy and likelihood collected from logit space. In this work, we offer a
novel perspective on shaping RLVR with flow rewards derived from latent space,
and propose RLFR, where the flow fields of model latents are constructed from
either off-policy high-quality data and on-policy rejection sampling data, and
the velocity deviations of policy latents within it are quantified to serve as
a reward signal. RLFR first demonstrates that a well-established flow field can
be a sound environment for reward signal collection, highlighting the
expressive latent space is much underexplored. Moreover, RLFR is able to
compress any off-policy expert data as reference for constituting reward
signals, and we show that the efficient context dependence compressed within
the hidden states are utilized, rather than individual token-level denotation
for context comprehending. Experiments on both language and multimodal
reasoning benchmarks demonstrate the reliability of flow rewards, and
suggesting a promising paradigm for reward shaping with auxiliary signals.