RLAIF: Escalando el Aprendizaje por Refuerzo a partir de Retroalimentación Humana con Retroalimentación de IA
RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
September 1, 2023
Autores: Harrison Lee, Samrat Phatale, Hassan Mansoor, Kellie Lu, Thomas Mesnard, Colton Bishop, Victor Carbune, Abhinav Rastogi
cs.AI
Resumen
El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) es efectivo para alinear modelos de lenguaje grandes (LLMs) con las preferencias humanas, pero la recopilación de etiquetas de preferencia humana de alta calidad es un cuello de botella clave. Realizamos una comparación directa entre RLHF y el aprendizaje por refuerzo a partir de retroalimentación de IA (RLAIF), una técnica en la que las preferencias son etiquetadas por un LLM estándar en lugar de humanos, y encontramos que ambos métodos resultan en mejoras similares. En la tarea de resumen, los evaluadores humanos prefieren las generaciones tanto de RLAIF como de RLHF sobre un modelo base ajustado mediante aprendizaje supervisado en aproximadamente el 70% de los casos. Además, cuando se les pide que califiquen resúmenes de RLAIF frente a RLHF, los humanos prefieren ambos en proporciones iguales. Estos resultados sugieren que RLAIF puede alcanzar un rendimiento a nivel humano, ofreciendo una solución potencial a las limitaciones de escalabilidad de RLHF.
English
Reinforcement learning from human feedback (RLHF) is effective at aligning
large language models (LLMs) to human preferences, but gathering high quality
human preference labels is a key bottleneck. We conduct a head-to-head
comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where
preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find
that they result in similar improvements. On the task of summarization, human
evaluators prefer generations from both RLAIF and RLHF over a baseline
supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate
RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results
suggest that RLAIF can yield human-level performance, offering a potential
solution to the scalability limitations of RLHF.Summary
AI-Generated Summary