ChatPaper.aiChatPaper

대규모 언어 모델이 강화 학습을 통해 추론하도록 가르치기

Teaching Large Language Models to Reason with Reinforcement Learning

March 7, 2024
저자: Alex Havrilla, Yuqing Du, Sharath Chandra Raparthy, Christoforos Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Sainbayar Sukhbaatar, Roberta Raileanu
cs.AI

초록

인간 피드백을 통한 강화 학습(RLHF)은 대형 언어 모델(LLM)의 출력을 인간의 선호도와 일치시키는 주요 접근 방식으로 부상했습니다. RLHF의 성공에 영감을 받아, 우리는 전문가 반복(Expert Iteration), 근위 정책 최적화(PPO), 반환 조건부 강화 학습(Return-Conditioned RL)과 같은 여러 피드백 학습 알고리즘의 성능을 LLM의 추론 능력 향상에 대해 연구했습니다. 우리는 휴리스틱적으로 제공되는 희소 보상과 학습된 보상 모델을 통해 제공되는 밀집 보상 모두를 LLM에 적용하여 조사했습니다. 또한, 지도 미세 조정(SFT) 데이터를 포함하거나 포함하지 않은 다양한 모델 크기와 초기화 설정에서 시작했습니다. 전반적으로, 모든 알고리즘이 비슷한 성능을 보였으며, 대부분의 경우 전문가 반복이 가장 우수한 성능을 나타냈습니다. 놀랍게도, 전문가 반복의 샘플 복잡도는 PPO와 유사했으며, 사전 학습된 체크포인트에서 수렴하기 위해 최대 10^6개의 샘플이 필요했습니다. 우리는 이 현상의 원인을 조사한 결과, RL 훈련 중 모델이 SFT 모델에서 이미 생성된 솔루션을 크게 벗어나지 못한다는 결론을 내렸습니다. 또한, SFT 훈련 중 maj@1과 pass@96 지표 성능 간의 상충 관계와 반대로 RL 훈련이 두 지표를 동시에 개선하는 방법에 대해 논의했습니다. 마지막으로, 우리의 연구 결과가 RLHF와 LLM 미세 조정에서 RL의 미래 역할에 미치는 함의에 대해 논의하며 결론을 맺습니다.
English
Reinforcement Learning from Human Feedback (RLHF) has emerged as a dominant approach for aligning LLM outputs with human preferences. Inspired by the success of RLHF, we study the performance of multiple algorithms that learn from feedback (Expert Iteration, Proximal Policy Optimization (PPO), Return-Conditioned RL) on improving LLM reasoning capabilities. We investigate both sparse and dense rewards provided to the LLM both heuristically and via a learned reward model. We additionally start from multiple model sizes and initializations both with and without supervised fine-tuning (SFT) data. Overall, we find all algorithms perform comparably, with Expert Iteration performing best in most cases. Surprisingly, we find the sample complexity of Expert Iteration is similar to that of PPO, requiring at most on the order of 10^6 samples to converge from a pretrained checkpoint. We investigate why this is the case, concluding that during RL training models fail to explore significantly beyond solutions already produced by SFT models. Additionally, we discuss a trade off between maj@1 and pass@96 metric performance during SFT training and how conversely RL training improves both simultaneously. We then conclude by discussing the implications of our findings for RLHF and the future role of RL in LLM fine-tuning.
PDF512December 15, 2024