RL-PLUS: Het tegengaan van het ineenkrimpen van de capaciteitsgrenzen van LLM's in reinforcement learning met hybride beleidsoptimalisatie
RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization
July 31, 2025
Auteurs: Yihong Dong, Xue Jiang, Yongding Tao, Huanyu Liu, Kechi Zhang, Lili Mou, Rongyu Cao, Yingwei Ma, Jue Chen, Binhua Li, Zhi Jin, Fei Huang, Yongbin Li, Ge Li
cs.AI
Samenvatting
Reinforcement Learning met Verifieerbare Beloning (RLVR) heeft de complexe redeneervaardigheden van Large Language Models (LLMs) aanzienlijk verbeterd. Het lukt echter niet om de inherente capaciteitsgrenzen van het basis-LLM te doorbreken, vanwege de in wezen on-policy strategie in combinatie met de enorme actieruimte en schaarse beloning van het LLM. Kritisch is dat RLVR kan leiden tot het instorten van de capaciteitsgrens, waardoor het probleemoplossend vermogen van het LLM wordt ingeperkt. Om dit probleem aan te pakken, stellen we RL-PLUS voor, een nieuwe hybride-policy optimalisatiebenadering voor LLMs die interne exploitatie combineert met externe data om sterkere redeneervaardigheden te bereiken en de grenzen van basismodellen te overstijgen. RL-PLUS integreert twee kerncomponenten, namelijk Multiple Importance Sampling om distributiemismatch van externe data aan te pakken, en een Exploration-Based Advantage Function om het model te leiden naar hoogwaardige, onontgonnen redeneerpaden. We bieden zowel theoretische analyse als uitgebreide experimenten om de superioriteit en generaliseerbaarheid van onze aanpak aan te tonen. In vergelijking met bestaande RLVR-methoden behaalt RL-PLUS 1) state-of-the-art prestaties op zes wiskundige redeneerbenchmarks; 2) superieure prestaties op zes out-of-distribution redeneertaken; 3) consistente en significante verbeteringen over diverse modelfamilies, met gemiddelde relatieve verbeteringen tot 69,2\%. Bovendien geeft de analyse van Pass@k-curven aan dat RL-PLUS het probleem van het instorten van de capaciteitsgrens effectief oplost.
English
Reinforcement Learning with Verifiable Reward (RLVR) has significantly
advanced the complex reasoning abilities of Large Language Models (LLMs).
However, it struggles to break through the inherent capability boundaries of
the base LLM, due to its essentially on-policy strategy coupled with LLM's
immense action space and sparse reward. Critically, RLVR can lead to the
capability boundary collapse, narrowing the LLM's problem-solving scope. To
address this problem, we propose RL-PLUS, a novel hybrid-policy optimization
approach for LLMs that synergizes internal exploitation with external data to
achieve stronger reasoning capabilities and surpass the boundaries of base
models. RL-PLUS integrates two core components, i.e., Multiple Importance
Sampling to address distributional mismatch from external data, and
Exploration-Based Advantage Function to guide the model towards high-value,
unexplored reasoning paths. We provide both theoretical analysis and extensive
experiments to demonstrate the superiority and generalizability of our
approach. Compared with existing RLVR methods, RL-PLUS achieves 1)
state-of-the-art performance on six math reasoning benchmarks; 2) superior
performance on six out-of-distribution reasoning tasks; 3) consistent and
significant gains across diverse model families, with average relative
improvements up to 69.2\%. Moreover, the analysis of Pass@k curves indicates
that RL-PLUS effectively resolves the capability boundary collapse problem.