RLAIF: Масштабирование обучения с подкреплением на основе обратной связи от человека с использованием обратной связи от ИИ
RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback
September 1, 2023
Авторы: Harrison Lee, Samrat Phatale, Hassan Mansoor, Kellie Lu, Thomas Mesnard, Colton Bishop, Victor Carbune, Abhinav Rastogi
cs.AI
Аннотация
Обучение с подкреплением на основе человеческой обратной связи (RLHF) эффективно для согласования крупных языковых моделей (LLM) с предпочтениями человека, однако сбор высококачественных меток человеческих предпочтений является ключевым ограничением. Мы провели прямое сравнение RLHF и обучения с подкреплением на основе обратной связи от ИИ (RLAIF) — метода, в котором предпочтения маркируются готовой языковой моделью вместо людей, и обнаружили, что они приводят к схожим улучшениям. В задаче суммаризации человеческие оценщики предпочитают результаты как RLAIF, так и RLHF по сравнению с базовой моделью, дообученной с учителем, примерно в 70% случаев. Более того, при оценке суммаризаций RLAIF и RLHF люди предпочитают их в равной степени. Эти результаты свидетельствуют о том, что RLAIF может достигать уровня человеческой производительности, предлагая потенциальное решение для масштабируемости RLHF.
English
Reinforcement learning from human feedback (RLHF) is effective at aligning
large language models (LLMs) to human preferences, but gathering high quality
human preference labels is a key bottleneck. We conduct a head-to-head
comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where
preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find
that they result in similar improvements. On the task of summarization, human
evaluators prefer generations from both RLAIF and RLHF over a baseline
supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate
RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results
suggest that RLAIF can yield human-level performance, offering a potential
solution to the scalability limitations of RLHF.Summary
AI-Generated Summary