Explorando Tendências e Efeitos de Escalonamento de Dados no Aprendizado por Reforço com Feedback Humano
Exploring Data Scaling Trends and Effects in Reinforcement Learning from Human Feedback
March 28, 2025
Autores: Wei Shen, Guanlin Liu, Zheng Wu, Ruofei Zhu, Qingping Yang, Chao Xin, Yu Yue, Lin Yan
cs.AI
Resumo
O Aprendizado por Reforço com Feedback Humano (RLHF) é crucial para alinhar grandes modelos de linguagem com as preferências humanas. Embora pesquisas recentes tenham focado em melhorias algorítmicas, a importância da construção de dados de prompt tem sido negligenciada. Este artigo aborda essa lacuna ao explorar gargalos baseados em dados no dimensionamento do desempenho do RLHF, particularmente o "reward hacking" e a diminuição da diversidade de respostas. Introduzimos um sistema de recompensa híbrido que combina verificadores de tarefas de raciocínio (RTV) e um modelo de recompensa generativo (GenRM) para mitigar o "reward hacking". Também propomos um novo método de seleção de prompts, Pre-PPO, para manter a diversidade de respostas e aumentar a eficácia do aprendizado. Além disso, descobrimos que priorizar tarefas matemáticas e de codificação no início do treinamento do RLHF melhora significativamente o desempenho. Experimentos em dois tamanhos de modelo validam a eficácia e escalabilidade de nossos métodos. Os resultados mostram que o RTV é mais resistente ao "reward hacking", seguido pelo GenRM com verdade fundamental e, em seguida, pelo GenRM com respostas SFT Best-of-N. Nossas estratégias permitem a captura rápida de distinções sutis específicas da tarefa, levando a melhorias substanciais no desempenho geral do RLHF. Este trabalho destaca a importância de uma construção cuidadosa de dados e fornece métodos práticos para superar barreiras de desempenho no RLHF.
English
Reinforcement Learning from Human Feedback (RLHF) is crucial for aligning
large language models with human preferences. While recent research has focused
on algorithmic improvements, the importance of prompt-data construction has
been overlooked. This paper addresses this gap by exploring data-driven
bottlenecks in RLHF performance scaling, particularly reward hacking and
decreasing response diversity. We introduce a hybrid reward system combining
reasoning task verifiers (RTV) and a generative reward model (GenRM) to
mitigate reward hacking. We also propose a novel prompt-selection method,
Pre-PPO, to maintain response diversity and enhance learning effectiveness.
Additionally, we find that prioritizing mathematical and coding tasks early in
RLHF training significantly improves performance. Experiments across two model
sizes validate our methods' effectiveness and scalability. Results show that
RTV is most resistant to reward hacking, followed by GenRM with ground truth,
and then GenRM with SFT Best-of-N responses. Our strategies enable rapid
capture of subtle task-specific distinctions, leading to substantial
improvements in overall RLHF performance. This work highlights the importance
of careful data construction and provides practical methods to overcome
performance barriers in RLHF.Summary
AI-Generated Summary