RLFR: Erweiterung des Reinforcement Learning für LLMs durch Flow-Umgebung
RLFR: Extending Reinforcement Learning for LLMs with Flow Environment
October 11, 2025
papers.authors: Jinghao Zhang, Naishan Zheng, Ruilin Li, Dongzhou Cheng, Zheming Liang, Feng Zhao, Jiaqi Wang
cs.AI
papers.abstract
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich kürzlich als vielversprechendes Framework zur Verbesserung der Fähigkeiten zur logischen Schlussfolgerung in großen Sprachmodellen (LLMs) herausgestellt. Allerdings neigen mit binärer Verifikation optimierte Strategien dazu, potenziell wertvolle Explorationen im Verlauf der Schlussfolgerung zu übersehen. Angesichts der hohen Annotationskosten für goldene Prozess-Belohnungsmodelle (PRMs) versuchen aktuelle Arbeiten, Hilfssignale für die Belohnungsgestaltung von Prozess-Tokens zu verwenden, darunter Entropie und Wahrscheinlichkeiten, die aus dem Logit-Raum gesammelt werden. In dieser Arbeit bieten wir eine neue Perspektive auf die Gestaltung von RLVR mit Fluss-Belohnungen, die aus dem latenten Raum abgeleitet werden, und schlagen RLFR vor, bei dem die Flussfelder der Modell-Latents entweder aus Off-Policy-Daten hoher Qualität oder aus On-Policy-Daten durch Ablehnungsstichproben konstruiert werden. Die Geschwindigkeitsabweichungen der Policy-Latents innerhalb dieser Felder werden quantifiziert, um als Belohnungssignal zu dienen. RLFR zeigt zunächst, dass ein gut etabliertes Flussfeld eine solide Umgebung für die Sammlung von Belohnungssignalen sein kann, und hebt hervor, dass der expressive latente Raum bisher stark vernachlässigt wurde. Darüber hinaus ist RLFR in der Lage, beliebige Off-Policy-Experten-Daten als Referenz für die Erstellung von Belohnungssignalen zu komprimieren, und wir zeigen, dass die effiziente Kontextabhängigkeit, die innerhalb der verborgenen Zustände komprimiert ist, genutzt wird, anstatt einzelne Token-Level-Bezeichnungen für das Kontextverständnis. Experimente auf Benchmarks für sprachliche und multimodale Schlussfolgerungen demonstrieren die Zuverlässigkeit von Fluss-Belohnungen und deuten auf ein vielversprechendes Paradigma für die Belohnungsgestaltung mit Hilfssignalen hin.
English
Reinforcement Learning with Verifiable Rewards (RLVR) has recently emerged as
a promising framework for improving reasoning abilities in Large Language
Models (LLMs). However, policy optimized with binary verification prone to
overlook potential valuable exploration in reasoning trajectory. In view of
heavy annotation cost of golden Process Reward Models (PRMs), recent works
attempt using auxiliary signals for reward shaping of process tokens, involving
entropy and likelihood collected from logit space. In this work, we offer a
novel perspective on shaping RLVR with flow rewards derived from latent space,
and propose RLFR, where the flow fields of model latents are constructed from
either off-policy high-quality data and on-policy rejection sampling data, and
the velocity deviations of policy latents within it are quantified to serve as
a reward signal. RLFR first demonstrates that a well-established flow field can
be a sound environment for reward signal collection, highlighting the
expressive latent space is much underexplored. Moreover, RLFR is able to
compress any off-policy expert data as reference for constituting reward
signals, and we show that the efficient context dependence compressed within
the hidden states are utilized, rather than individual token-level denotation
for context comprehending. Experiments on both language and multimodal
reasoning benchmarks demonstrate the reliability of flow rewards, and
suggesting a promising paradigm for reward shaping with auxiliary signals.