RLAIF: Skalierung von Reinforcement Learning durch menschliches Feedback mit KI-Feedback
RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
September 1, 2023
Autoren: Harrison Lee, Samrat Phatale, Hassan Mansoor, Kellie Lu, Thomas Mesnard, Colton Bishop, Victor Carbune, Abhinav Rastogi
cs.AI
Zusammenfassung
Reinforcement Learning from Human Feedback (RLHF) ist effektiv darin, große Sprachmodelle (LLMs) an menschliche Präferenzen anzupassen, doch die Beschaffung hochwertiger menschlicher Präferenzlabels stellt einen zentralen Engpass dar. Wir führen einen direkten Vergleich zwischen RLHF und Reinforcement Learning from AI Feedback (RLAIF) durch – einer Technik, bei der Präferenzen von einem Standard-LLM anstelle von Menschen annotiert werden – und stellen fest, dass beide ähnliche Verbesserungen erzielen. Bei der Aufgabe der Zusammenfassung bevorzugen menschliche Bewerter die Ergebnisse sowohl von RLAIF als auch von RLHF in etwa 70 % der Fälle gegenüber einem baseline-supervised-fine-tuned Modell. Darüber hinaus bewerten menschliche Bewerter RLAIF- und RLHF-Zusammenfassungen in gleichem Maße positiv. Diese Ergebnisse deuten darauf hin, dass RLAIF eine menschenähnliche Leistung erzielen kann und somit eine potenzielle Lösung für die Skalierbarkeitsbeschränkungen von RLHF bietet.
English
Reinforcement learning from human feedback (RLHF) is effective at aligning
large language models (LLMs) to human preferences, but gathering high quality
human preference labels is a key bottleneck. We conduct a head-to-head
comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where
preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find
that they result in similar improvements. On the task of summarization, human
evaluators prefer generations from both RLAIF and RLHF over a baseline
supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate
RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results
suggest that RLAIF can yield human-level performance, offering a potential
solution to the scalability limitations of RLHF.Summary
AI-Generated Summary