ChatPaper.aiChatPaper

RLBFF: Retroalimentación Binaria Flexible para conectar la Retroalimentación Humana y las Recompensas Verificables

RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards

September 25, 2025
Autores: Zhilin Wang, Jiaqi Zeng, Olivier Delalleau, Ellie Evans, Daniel Egert, Hoo-Chang Shin, Felipe Soares, Yi Dong, Oleksii Kuchaiev
cs.AI

Resumen

El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) y el Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) son los principales paradigmas de RL utilizados en el posentrenamiento de LLM, cada uno ofreciendo ventajas distintivas. Sin embargo, RLHF enfrenta desafíos en cuanto a interpretabilidad y manipulación de recompensas debido a su dependencia de juicios humanos que generalmente carecen de criterios explícitos, mientras que RLVR está limitado en alcance por su enfoque en verificadores basados en la corrección. Proponemos el Aprendizaje por Refuerzo con Retroalimentación Binaria Flexible (RLBFF), que combina la versatilidad de las preferencias impulsadas por humanos con la precisión de la verificación basada en reglas, permitiendo que los modelos de recompensa capturen aspectos matizados de la calidad de las respuestas más allá de la mera corrección. RLBFF extrae principios que pueden responderse de manera binaria (por ejemplo, precisión de la información: sí, o legibilidad del código: no) a partir de retroalimentación en lenguaje natural. Dichos principios pueden luego utilizarse para fundamentar el entrenamiento del Modelo de Recompensa como una tarea de implicación (la respuesta satisface o no satisface un principio arbitrario). Demostramos que los Modelos de Recompensa entrenados de esta manera pueden superar a los modelos de Bradley-Terry cuando se comparan con los mismos datos y alcanzan un rendimiento superior en RM-Bench (86.2%) y JudgeBench (81.4%, #1 en la tabla de clasificación al 24 de septiembre de 2025). Además, los usuarios pueden especificar principios de interés en el momento de la inferencia para personalizar el enfoque de nuestros modelos de recompensa, a diferencia de los modelos de Bradley-Terry. Finalmente, presentamos una receta completamente de código abierto (incluyendo datos) para alinear Qwen3-32B utilizando RLBFF y nuestro Modelo de Recompensa, logrando igualar o superar el rendimiento de o3-mini y DeepSeek R1 en los benchmarks generales de alineación de MT-Bench, WildBench y Arena Hard v2 (con menos del 5% del costo de inferencia).
English
Reinforcement Learning with Human Feedback (RLHF) and Reinforcement Learning with Verifiable Rewards (RLVR) are the main RL paradigms used in LLM post-training, each offering distinct advantages. However, RLHF struggles with interpretability and reward hacking because it relies on human judgments that usually lack explicit criteria, whereas RLVR is limited in scope by its focus on correctness-based verifiers. We propose Reinforcement Learning with Binary Flexible Feedback (RLBFF), which combines the versatility of human-driven preferences with the precision of rule-based verification, enabling reward models to capture nuanced aspects of response quality beyond mere correctness. RLBFF extracts principles that can be answered in a binary fashion (e.g. accuracy of information: yes, or code readability: no) from natural language feedback. Such principles can then be used to ground Reward Model training as an entailment task (response satisfies or does not satisfy an arbitrary principle). We show that Reward Models trained in this manner can outperform Bradley-Terry models when matched for data and achieve top performance on RM-Bench (86.2%) and JudgeBench (81.4%, #1 on leaderboard as of September 24, 2025). Additionally, users can specify principles of interest at inference time to customize the focus of our reward models, in contrast to Bradley-Terry models. Finally, we present a fully open source recipe (including data) to align Qwen3-32B using RLBFF and our Reward Model, to match or exceed the performance of o3-mini and DeepSeek R1 on general alignment benchmarks of MT-Bench, WildBench, and Arena Hard v2 (at <5% of the inference cost).
PDF12September 29, 2025