ChatPaper.aiChatPaper

RLAIF: AI 피드백을 활용한 인간 피드백 기반 강화 학습의 확장

RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

September 1, 2023
저자: Harrison Lee, Samrat Phatale, Hassan Mansoor, Kellie Lu, Thomas Mesnard, Colton Bishop, Victor Carbune, Abhinav Rastogi
cs.AI

초록

인간 피드백을 통한 강화 학습(RLHF)은 대규모 언어 모델(LLM)을 인간의 선호도에 맞추는 데 효과적이지만, 고품질의 인간 선호도 레이블을 수집하는 것이 주요 병목 현상으로 작용합니다. 본 연구에서는 RLHF와 AI 피드백을 통한 강화 학습(RLAIF)을 직접 비교했습니다. RLAIF는 인간 대신 기성 LLM이 선호도를 레이블링하는 기술로, 두 방법이 유사한 개선 효과를 보이는 것을 확인했습니다. 요약 작업에서 인간 평가자들은 RLAIF와 RLHF로 생성된 결과를 기준이 되는 지도 학습 미세 조정 모델보다 약 70%의 경우에서 선호했습니다. 또한, RLAIF와 RLHF 요약을 평가할 때 인간 평가자들은 두 방법을 동등한 비율로 선호했습니다. 이러한 결과는 RLAIF가 인간 수준의 성능을 달성할 수 있음을 시사하며, RLHF의 확장성 한계에 대한 잠재적 해결책을 제시합니다.
English
Reinforcement learning from human feedback (RLHF) is effective at aligning large language models (LLMs) to human preferences, but gathering high quality human preference labels is a key bottleneck. We conduct a head-to-head comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find that they result in similar improvements. On the task of summarization, human evaluators prefer generations from both RLAIF and RLHF over a baseline supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results suggest that RLAIF can yield human-level performance, offering a potential solution to the scalability limitations of RLHF.

Summary

AI-Generated Summary

PDF501December 15, 2024