RLFR: Расширение обучения с подкреплением для языковых моделей с использованием среды потоков
RLFR: Extending Reinforcement Learning for LLMs with Flow Environment
October 11, 2025
Авторы: Jinghao Zhang, Naishan Zheng, Ruilin Li, Dongzhou Cheng, Zheming Liang, Feng Zhao, Jiaqi Wang
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми наградами (RLVR) недавно стало перспективной основой для улучшения способностей к рассуждению в больших языковых моделях (LLM). Однако политика, оптимизированная с использованием бинарной верификации, склонна упускать потенциально ценные исследования в траектории рассуждений. Учитывая высокую стоимость аннотирования эталонных моделей наград за процесс (PRM), в последних работах предпринимаются попытки использования вспомогательных сигналов для формирования наград за процессные токены, включая энтропию и правдоподобие, собранные из пространства логитов. В данной работе мы предлагаем новый подход к формированию RLVR с использованием наград, основанных на потоках, извлеченных из латентного пространства, и представляем RLFR, где поля потоков латентных состояний модели строятся либо на основе высококачественных данных вне политики, либо на данных отбора с отклонением в рамках политики, а отклонения скоростей латентных состояний политики в этих полях количественно оцениваются для использования в качестве сигнала награды. RLFR впервые демонстрирует, что хорошо установленное поле потоков может быть надежной средой для сбора сигналов наград, подчеркивая, что выразительное латентное пространство остается недостаточно изученным. Более того, RLFR способен сжимать любые данные экспертов вне политики для использования в качестве эталона для формирования сигналов наград, и мы показываем, что эффективная контекстная зависимость, сжатая в скрытых состояниях, используется вместо обозначений на уровне отдельных токенов для понимания контекста. Эксперименты на языковых и мультимодальных бенчмарках для рассуждений демонстрируют надежность наград, основанных на потоках, и предлагают перспективную парадигму для формирования наград с использованием вспомогательных сигналов.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as
a promising framework for improving reasoning abilities in Large Language
Models (LLMs). However, policy optimized with binary verification prone to
overlook potential valuable exploration in reasoning trajectory. In view of
heavy annotation cost of golden Process Reward Models (PRMs), recent works
attempt using auxiliary signals for reward shaping of process tokens, involving
entropy and likelihood collected from logit space. In this work, we offer a
novel perspective on shaping RLVR with flow rewards derived from latent space,
and propose RLFR, where the flow fields of model latents are constructed from
either off-policy high-quality data and on-policy rejection sampling data, and
the velocity deviations of policy latents within it are quantified to serve as
a reward signal. RLFR first demonstrates that a well-established flow field can
be a sound environment for reward signal collection, highlighting the
expressive latent space is much underexplored. Moreover, RLFR is able to
compress any off-policy expert data as reference for constituting reward
signals, and we show that the efficient context dependence compressed within
the hidden states are utilized, rather than individual token-level denotation
for context comprehending. Experiments on both language and multimodal
reasoning benchmarks demonstrate the reliability of flow rewards, and
suggesting a promising paradigm for reward shaping with auxiliary signals.