RLBFF: Feedback Binario Flessibile per colmare il divario tra Feedback Umano e Ricompense Verificabili
RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards
September 25, 2025
Autori: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Ellie Evans, Daniel Egert, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev
cs.AI
Abstract
Il Reinforcement Learning con Feedback Umano (RLHF) e il Reinforcement Learning con Ricompense Verificabili (RLVR) sono i principali paradigmi di RL utilizzati nel post-training dei modelli linguistici di grandi dimensioni (LLM), ciascuno con vantaggi distinti. Tuttavia, l'RLHF affronta difficoltà in termini di interpretabilità e manipolazione delle ricompense poiché si basa su giudizi umani che spesso mancano di criteri espliciti, mentre l'RLVR è limitato nel suo ambito di applicazione a causa della sua focalizzazione su verificatori basati sulla correttezza. Proponiamo il Reinforcement Learning con Feedback Binario Flessibile (RLBFF), che combina la versatilità delle preferenze guidate dall'uomo con la precisione della verifica basata su regole, consentendo ai modelli di ricompensa di catturare aspetti sfumati della qualità delle risposte che vanno oltre la mera correttezza. L'RLBFF estrae principi che possono essere risposti in modo binario (ad esempio, accuratezza delle informazioni: sì, o leggibilità del codice: no) da feedback in linguaggio naturale. Tali principi possono quindi essere utilizzati per ancorare l'addestramento del Modello di Ricompensa come un compito di implicazione (la risposta soddisfa o non soddisfa un principio arbitrario). Dimostriamo che i Modelli di Ricompensa addestrati in questo modo possono superare i modelli Bradley-Terry quando confrontati con gli stessi dati e raggiungere prestazioni eccellenti su RM-Bench (86,2%) e JudgeBench (81,4%, #1 nella classifica al 24 settembre 2025). Inoltre, gli utenti possono specificare i principi di interesse al momento dell'inferenza per personalizzare il focus dei nostri modelli di ricompensa, a differenza dei modelli Bradley-Terry. Infine, presentiamo una ricetta completamente open source (inclusi i dati) per allineare Qwen3-32B utilizzando RLBFF e il nostro Modello di Ricompensa, ottenendo prestazioni pari o superiori a o3-mini e DeepSeek R1 sui benchmark generali di allineamento di MT-Bench, WildBench e Arena Hard v2 (con un costo di inferenza inferiore al 5%).
English
Reinforcement Learning with Human Feedback (RLHF) and Reinforcement Learning
with Verifiable Rewards (RLVR) are the main RL paradigms used in LLM
post-training, each offering distinct advantages. However, RLHF struggles with
interpretability and reward hacking because it relies on human judgments that
usually lack explicit criteria, whereas RLVR is limited in scope by its focus
on correctness-based verifiers. We propose Reinforcement Learning with Binary
Flexible Feedback (RLBFF), which combines the versatility of human-driven
preferences with the precision of rule-based verification, enabling reward
models to capture nuanced aspects of response quality beyond mere correctness.
RLBFF extracts principles that can be answered in a binary fashion (e.g.
accuracy of information: yes, or code readability: no) from natural language
feedback. Such principles can then be used to ground Reward Model training as
an entailment task (response satisfies or does not satisfy an arbitrary
principle). We show that Reward Models trained in this manner can outperform
Bradley-Terry models when matched for data and achieve top performance on
RM-Bench (86.2%) and JudgeBench (81.4%, #1 on leaderboard as of September 24,
2025). Additionally, users can specify principles of interest at inference time
to customize the focus of our reward models, in contrast to Bradley-Terry
models. Finally, we present a fully open source recipe (including data) to
align Qwen3-32B using RLBFF and our Reward Model, to match or exceed the
performance of o3-mini and DeepSeek R1 on general alignment benchmarks of
MT-Bench, WildBench, and Arena Hard v2 (at <5% of the inference cost).