RLAIF: Escalando el Aprendizaje por Refuerzo a partir de Retroalimentación Humana con Retroalimentación de IA

Resumen

El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) es efectivo para alinear modelos de lenguaje grandes (LLMs) con las preferencias humanas, pero la recopilación de etiquetas de preferencia humana de alta calidad es un cuello de botella clave. Realizamos una comparación directa entre RLHF y el aprendizaje por refuerzo a partir de retroalimentación de IA (RLAIF), una técnica en la que las preferencias son etiquetadas por un LLM estándar en lugar de humanos, y encontramos que ambos métodos resultan en mejoras similares. En la tarea de resumen, los evaluadores humanos prefieren las generaciones tanto de RLAIF como de RLHF sobre un modelo base ajustado mediante aprendizaje supervisado en aproximadamente el 70% de los casos. Además, cuando se les pide que califiquen resúmenes de RLAIF frente a RLHF, los humanos prefieren ambos en proporciones iguales. Estos resultados sugieren que RLAIF puede alcanzar un rendimiento a nivel humano, ofreciendo una solución potencial a las limitaciones de escalabilidad de RLHF.

English

Reinforcement learning from human feedback (RLHF) is effective at aligning large language models (LLMs) to human preferences, but gathering high quality human preference labels is a key bottleneck. We conduct a head-to-head comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find that they result in similar improvements. On the task of summarization, human evaluators prefer generations from both RLAIF and RLHF over a baseline supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results suggest that RLAIF can yield human-level performance, offering a potential solution to the scalability limitations of RLHF.

RLAIF: Escalando el Aprendizaje por Refuerzo a partir de Retroalimentación Humana con Retroalimentación de IA

RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Resumen

Summary

Support

Support