RLBFF: Binaire Flexibele Feedback om de kloof te overbruggen tussen Menselijke Feedback & Verifieerbare Beloningen

Samenvatting

Reinforcement Learning with Human Feedback (RLHF) en Reinforcement Learning with Verifiable Rewards (RLVR) zijn de belangrijkste RL-paradigma's die worden gebruikt bij het na-trainen van LLM's, elk met hun eigen voordelen. RLHF kampt echter met uitdagingen op het gebied van interpreteerbaarheid en reward hacking, omdat het afhankelijk is van menselijke beoordelingen die meestal geen expliciete criteria hebben, terwijl RLVR beperkt is in reikwijdte door zijn focus op correctheid-gebaseerde verificatie. Wij stellen Reinforcement Learning with Binary Flexible Feedback (RLBFF) voor, dat de veelzijdigheid van menselijk gestuurde voorkeuren combineert met de precisie van regelgebaseerde verificatie, waardoor beloningsmodellen in staat zijn om genuanceerde aspecten van responskwaliteit vast te leggen die verder gaan dan louter correctheid. RLBFF haalt principes uit natuurlijke taal feedback die binair beantwoord kunnen worden (bijv. nauwkeurigheid van informatie: ja, of leesbaarheid van code: nee). Deze principes kunnen vervolgens worden gebruikt om de training van Beloningsmodellen te baseren als een entailment-taak (respons voldoet wel of niet aan een willekeurig principe). We laten zien dat Beloningsmodellen die op deze manier zijn getraind, Bradley-Terry-modellen kunnen overtreffen bij gelijke hoeveelheid data en topprestaties behalen op RM-Bench (86,2%) en JudgeBench (81,4%, #1 op de leaderboard per 24 september 2025). Bovendien kunnen gebruikers tijdens inferentie principes van belang specificeren om de focus van onze beloningsmodellen aan te passen, in tegenstelling tot Bradley-Terry-modellen. Tot slot presenteren we een volledig open source recept (inclusief data) om Qwen3-32B uit te lijnen met RLBFF en ons Beloningsmodel, om de prestaties van o3-mini en DeepSeek R1 te evenaren of te overtreffen op algemene uitlijningsbenchmarks van MT-Bench, WildBench en Arena Hard v2 (tegen <5% van de inferentiekosten).

English

Reinforcement Learning with Human Feedback (RLHF) and Reinforcement Learning with Verifiable Rewards (RLVR) are the main RL paradigms used in LLM post-training, each offering distinct advantages. However, RLHF struggles with interpretability and reward hacking because it relies on human judgments that usually lack explicit criteria, whereas RLVR is limited in scope by its focus on correctness-based verifiers. We propose Reinforcement Learning with Binary Flexible Feedback (RLBFF), which combines the versatility of human-driven preferences with the precision of rule-based verification, enabling reward models to capture nuanced aspects of response quality beyond mere correctness. RLBFF extracts principles that can be answered in a binary fashion (e.g. accuracy of information: yes, or code readability: no) from natural language feedback. Such principles can then be used to ground Reward Model training as an entailment task (response satisfies or does not satisfy an arbitrary principle). We show that Reward Models trained in this manner can outperform Bradley-Terry models when matched for data and achieve top performance on RM-Bench (86.2%) and JudgeBench (81.4%, #1 on leaderboard as of September 24, 2025). Additionally, users can specify principles of interest at inference time to customize the focus of our reward models, in contrast to Bradley-Terry models. Finally, we present a fully open source recipe (including data) to align Qwen3-32B using RLBFF and our Reward Model, to match or exceed the performance of o3-mini and DeepSeek R1 on general alignment benchmarks of MT-Bench, WildBench, and Arena Hard v2 (at <5% of the inference cost).

RLBFF: Binaire Flexibele Feedback om de kloof te overbruggen tussen Menselijke Feedback & Verifieerbare Beloningen

RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards

Samenvatting

Support