Explorando las tendencias y efectos del escalado de datos en el aprendizaje por refuerzo a partir de retroalimentación humana

Resumen

El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) es crucial para alinear los modelos de lenguaje grandes con las preferencias humanas. Si bien investigaciones recientes se han centrado en mejoras algorítmicas, la importancia de la construcción de datos de prompts ha sido pasada por alto. Este artículo aborda esta brecha al explorar los cuellos de botella basados en datos en la escalabilidad del rendimiento de RLHF, particularmente el hackeo de recompensas y la disminución de la diversidad de respuestas. Introducimos un sistema de recompensas híbrido que combina verificadores de tareas de razonamiento (RTV) y un modelo generativo de recompensas (GenRM) para mitigar el hackeo de recompensas. También proponemos un nuevo método de selección de prompts, Pre-PPO, para mantener la diversidad de respuestas y mejorar la eficacia del aprendizaje. Además, encontramos que priorizar tareas matemáticas y de codificación al inicio del entrenamiento de RLHF mejora significativamente el rendimiento. Los experimentos en dos tamaños de modelo validan la efectividad y escalabilidad de nuestros métodos. Los resultados muestran que RTV es más resistente al hackeo de recompensas, seguido por GenRM con verdad fundamental, y luego GenRM con respuestas SFT Best-of-N. Nuestras estrategias permiten capturar rápidamente distinciones sutiles específicas de la tarea, lo que conduce a mejoras sustanciales en el rendimiento general de RLHF. Este trabajo destaca la importancia de una cuidadosa construcción de datos y proporciona métodos prácticos para superar las barreras de rendimiento en RLHF.

English

Reinforcement Learning from Human Feedback (RLHF) is crucial for aligning large language models with human preferences. While recent research has focused on algorithmic improvements, the importance of prompt-data construction has been overlooked. This paper addresses this gap by exploring data-driven bottlenecks in RLHF performance scaling, particularly reward hacking and decreasing response diversity. We introduce a hybrid reward system combining reasoning task verifiers (RTV) and a generative reward model (GenRM) to mitigate reward hacking. We also propose a novel prompt-selection method, Pre-PPO, to maintain response diversity and enhance learning effectiveness. Additionally, we find that prioritizing mathematical and coding tasks early in RLHF training significantly improves performance. Experiments across two model sizes validate our methods' effectiveness and scalability. Results show that RTV is most resistant to reward hacking, followed by GenRM with ground truth, and then GenRM with SFT Best-of-N responses. Our strategies enable rapid capture of subtle task-specific distinctions, leading to substantial improvements in overall RLHF performance. This work highlights the importance of careful data construction and provides practical methods to overcome performance barriers in RLHF.

Explorando las tendencias y efectos del escalado de datos en el aprendizaje por refuerzo a partir de retroalimentación humana

Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback

Resumen

Support