RLBFF: Binaire Flexibele Feedback om de kloof te overbruggen tussen Menselijke Feedback & Verifieerbare Beloningen
RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards
September 25, 2025
Auteurs: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Ellie Evans, Daniel Egert, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev
cs.AI
Samenvatting
Reinforcement Learning with Human Feedback (RLHF) en Reinforcement Learning with Verifiable Rewards (RLVR) zijn de belangrijkste RL-paradigma's die worden gebruikt bij het na-trainen van LLM's, elk met hun eigen voordelen. RLHF kampt echter met uitdagingen op het gebied van interpreteerbaarheid en reward hacking, omdat het afhankelijk is van menselijke beoordelingen die meestal geen expliciete criteria hebben, terwijl RLVR beperkt is in reikwijdte door zijn focus op correctheid-gebaseerde verificatie. Wij stellen Reinforcement Learning with Binary Flexible Feedback (RLBFF) voor, dat de veelzijdigheid van menselijk gestuurde voorkeuren combineert met de precisie van regelgebaseerde verificatie, waardoor beloningsmodellen in staat zijn om genuanceerde aspecten van responskwaliteit vast te leggen die verder gaan dan louter correctheid. RLBFF haalt principes uit natuurlijke taal feedback die binair beantwoord kunnen worden (bijv. nauwkeurigheid van informatie: ja, of leesbaarheid van code: nee). Deze principes kunnen vervolgens worden gebruikt om de training van Beloningsmodellen te baseren als een entailment-taak (respons voldoet wel of niet aan een willekeurig principe). We laten zien dat Beloningsmodellen die op deze manier zijn getraind, Bradley-Terry-modellen kunnen overtreffen bij gelijke hoeveelheid data en topprestaties behalen op RM-Bench (86,2%) en JudgeBench (81,4%, #1 op de leaderboard per 24 september 2025). Bovendien kunnen gebruikers tijdens inferentie principes van belang specificeren om de focus van onze beloningsmodellen aan te passen, in tegenstelling tot Bradley-Terry-modellen. Tot slot presenteren we een volledig open source recept (inclusief data) om Qwen3-32B uit te lijnen met RLBFF en ons Beloningsmodel, om de prestaties van o3-mini en DeepSeek R1 te evenaren of te overtreffen op algemene uitlijningsbenchmarks van MT-Bench, WildBench en Arena Hard v2 (tegen <5% van de inferentiekosten).
English
Reinforcement Learning with Human Feedback (RLHF) and Reinforcement Learning
with Verifiable Rewards (RLVR) are the main RL paradigms used in LLM
post-training, each offering distinct advantages. However, RLHF struggles with
interpretability and reward hacking because it relies on human judgments that
usually lack explicit criteria, whereas RLVR is limited in scope by its focus
on correctness-based verifiers. We propose Reinforcement Learning with Binary
Flexible Feedback (RLBFF), which combines the versatility of human-driven
preferences with the precision of rule-based verification, enabling reward
models to capture nuanced aspects of response quality beyond mere correctness.
RLBFF extracts principles that can be answered in a binary fashion (e.g.
accuracy of information: yes, or code readability: no) from natural language
feedback. Such principles can then be used to ground Reward Model training as
an entailment task (response satisfies or does not satisfy an arbitrary
principle). We show that Reward Models trained in this manner can outperform
Bradley-Terry models when matched for data and achieve top performance on
RM-Bench (86.2%) and JudgeBench (81.4%, #1 on leaderboard as of September 24,
2025). Additionally, users can specify principles of interest at inference time
to customize the focus of our reward models, in contrast to Bradley-Terry
models. Finally, we present a fully open source recipe (including data) to
align Qwen3-32B using RLBFF and our Reward Model, to match or exceed the
performance of o3-mini and DeepSeek R1 on general alignment benchmarks of
MT-Bench, WildBench, and Arena Hard v2 (at <5% of the inference cost).