RLBFF: Retroalimentación Binaria Flexible para conectar la Retroalimentación Humana y las Recompensas Verificables
RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards
September 25, 2025
Autores: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Ellie Evans, Daniel Egert, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev
cs.AI
Resumen
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) y el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) son los principales paradigmas de RL utilizados en el posentrenamiento de LLM, cada uno ofreciendo ventajas distintivas. Sin embargo, RLHF enfrenta desafíos en cuanto a interpretabilidad y manipulación de recompensas debido a su dependencia de juicios humanos que generalmente carecen de criterios explícitos, mientras que RLVR está limitado en alcance por su enfoque en verificadores basados en la corrección. Proponemos el Aprendizaje por Refuerzo con Retroalimentación Binaria Flexible (RLBFF), que combina la versatilidad de las preferencias impulsadas por humanos con la precisión de la verificación basada en reglas, permitiendo que los modelos de recompensa capturen aspectos matizados de la calidad de las respuestas más allá de la mera corrección. RLBFF extrae principios que pueden responderse de manera binaria (por ejemplo, precisión de la información: sí, o legibilidad del código: no) a partir de retroalimentación en lenguaje natural. Dichos principios pueden luego utilizarse para fundamentar el entrenamiento del Modelo de Recompensa como una tarea de implicación (la respuesta satisface o no satisface un principio arbitrario). Demostramos que los Modelos de Recompensa entrenados de esta manera pueden superar a los modelos de Bradley-Terry cuando se comparan con los mismos datos y alcanzan un rendimiento superior en RM-Bench (86.2%) y JudgeBench (81.4%, #1 en la tabla de clasificación al 24 de septiembre de 2025). Además, los usuarios pueden especificar principios de interés en el momento de la inferencia para personalizar el enfoque de nuestros modelos de recompensa, a diferencia de los modelos de Bradley-Terry. Finalmente, presentamos una receta completamente de código abierto (incluyendo datos) para alinear Qwen3-32B utilizando RLBFF y nuestro Modelo de Recompensa, logrando igualar o superar el rendimiento de o3-mini y DeepSeek R1 en los benchmarks generales de alineación de MT-Bench, WildBench y Arena Hard v2 (con menos del 5% del costo de inferencia).
English
Reinforcement Learning with Human Feedback (RLHF) and Reinforcement Learning
with Verifiable Rewards (RLVR) are the main RL paradigms used in LLM
post-training, each offering distinct advantages. However, RLHF struggles with
interpretability and reward hacking because it relies on human judgments that
usually lack explicit criteria, whereas RLVR is limited in scope by its focus
on correctness-based verifiers. We propose Reinforcement Learning with Binary
Flexible Feedback (RLBFF), which combines the versatility of human-driven
preferences with the precision of rule-based verification, enabling reward
models to capture nuanced aspects of response quality beyond mere correctness.
RLBFF extracts principles that can be answered in a binary fashion (e.g.
accuracy of information: yes, or code readability: no) from natural language
feedback. Such principles can then be used to ground Reward Model training as
an entailment task (response satisfies or does not satisfy an arbitrary
principle). We show that Reward Models trained in this manner can outperform
Bradley-Terry models when matched for data and achieve top performance on
RM-Bench (86.2%) and JudgeBench (81.4%, #1 on leaderboard as of September 24,
2025). Additionally, users can specify principles of interest at inference time
to customize the focus of our reward models, in contrast to Bradley-Terry
models. Finally, we present a fully open source recipe (including data) to
align Qwen3-32B using RLBFF and our Reward Model, to match or exceed the
performance of o3-mini and DeepSeek R1 on general alignment benchmarks of
MT-Bench, WildBench, and Arena Hard v2 (at <5% of the inference cost).