ChatPaper.aiChatPaper

RLAIF : Mise à l'échelle de l'apprentissage par renforcement à partir de retours humains avec des retours d'IA

RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

September 1, 2023
Auteurs: Harrison Lee, Samrat Phatale, Hassan Mansoor, Kellie Lu, Thomas Mesnard, Colton Bishop, Victor Carbune, Abhinav Rastogi
cs.AI

Résumé

L'apprentissage par renforcement à partir de retours humains (RLHF) est efficace pour aligner les grands modèles de langage (LLMs) sur les préférences humaines, mais la collecte d'étiquettes de préférences humaines de haute qualité constitue un goulot d'étranglement majeur. Nous menons une comparaison directe entre le RLHF et l'apprentissage par renforcement à partir de retours d'IA (RLAIF) - une technique où les préférences sont étiquetées par un LLM standard plutôt que par des humains - et nous constatons qu'ils entraînent des améliorations similaires. Sur la tâche de résumé, les évaluateurs humains préfèrent les générations issues à la fois du RLAIF et du RLHF par rapport à un modèle de référence affiné de manière supervisée dans environ 70 % des cas. De plus, lorsqu'on leur demande de noter les résumés produits par le RLAIF et le RLHF, les humains les préfèrent à des taux égaux. Ces résultats suggèrent que le RLAIF peut atteindre des performances de niveau humain, offrant une solution potentielle aux limitations de scalabilité du RLHF.
English
Reinforcement learning from human feedback (RLHF) is effective at aligning large language models (LLMs) to human preferences, but gathering high quality human preference labels is a key bottleneck. We conduct a head-to-head comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find that they result in similar improvements. On the task of summarization, human evaluators prefer generations from both RLAIF and RLHF over a baseline supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results suggest that RLAIF can yield human-level performance, offering a potential solution to the scalability limitations of RLHF.

Summary

AI-Generated Summary

PDF501December 15, 2024