Explorando las tendencias y efectos del escalado de datos en el aprendizaje por refuerzo a partir de retroalimentación humana
Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback
March 28, 2025
Autores: Wei Shen, Guanlin Liu, Zheng Wu, Ruofei Zhu, Qingping Yang, Chao Xin, Yu Yue, Lin Yan
cs.AI
Resumen
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) es crucial para alinear los modelos de lenguaje grandes con las preferencias humanas. Si bien investigaciones recientes se han centrado en mejoras algorítmicas, la importancia de la construcción de datos de prompts ha sido pasada por alto. Este artículo aborda esta brecha al explorar los cuellos de botella basados en datos en la escalabilidad del rendimiento de RLHF, particularmente el hackeo de recompensas y la disminución de la diversidad de respuestas. Introducimos un sistema de recompensas híbrido que combina verificadores de tareas de razonamiento (RTV) y un modelo generativo de recompensas (GenRM) para mitigar el hackeo de recompensas. También proponemos un nuevo método de selección de prompts, Pre-PPO, para mantener la diversidad de respuestas y mejorar la eficacia del aprendizaje. Además, encontramos que priorizar tareas matemáticas y de codificación al inicio del entrenamiento de RLHF mejora significativamente el rendimiento. Los experimentos en dos tamaños de modelo validan la efectividad y escalabilidad de nuestros métodos. Los resultados muestran que RTV es más resistente al hackeo de recompensas, seguido por GenRM con verdad fundamental, y luego GenRM con respuestas SFT Best-of-N. Nuestras estrategias permiten capturar rápidamente distinciones sutiles específicas de la tarea, lo que conduce a mejoras sustanciales en el rendimiento general de RLHF. Este trabajo destaca la importancia de una cuidadosa construcción de datos y proporciona métodos prácticos para superar las barreras de rendimiento en RLHF.
English
Reinforcement Learning from Human Feedback (RLHF) is crucial for aligning
large language models with human preferences. While recent research has focused
on algorithmic improvements, the importance of prompt-data construction has
been overlooked. This paper addresses this gap by exploring data-driven
bottlenecks in RLHF performance scaling, particularly reward hacking and
decreasing response diversity. We introduce a hybrid reward system combining
reasoning task verifiers (RTV) and a generative reward model (GenRM) to
mitigate reward hacking. We also propose a novel prompt-selection method,
Pre-PPO, to maintain response diversity and enhance learning effectiveness.
Additionally, we find that prioritizing mathematical and coding tasks early in
RLHF training significantly improves performance. Experiments across two model
sizes validate our methods' effectiveness and scalability. Results show that
RTV is most resistant to reward hacking, followed by GenRM with ground truth,
and then GenRM with SFT Best-of-N responses. Our strategies enable rapid
capture of subtle task-specific distinctions, leading to substantial
improvements in overall RLHF performance. This work highlights the importance
of careful data construction and provides practical methods to overcome
performance barriers in RLHF.Summary
AI-Generated Summary