PILAF: 보상 모델링을 위한 최적 인간 선호 샘플링
PILAF: Optimal Human Preference Sampling for Reward Modeling
February 6, 2025
저자: Yunzhen Feng, Ariel Kwiatkowski, Kunhao Zheng, Julia Kempe, Yaqi Duan
cs.AI
초록
대형 언어 모델이 현실 세계 응용프로그램을 점점 주도함에 따라, 그것들을 인간의 가치와 조화롭게 만드는 것이 중요해집니다. 인간 피드백으로부터 강화 학습 (RLHF)은 주요 기술로 부상하였으며, 오라클 인간 가치에 접근할 수 없을 때 선호 데이터를 보상 모델로 변환합니다. 실제로 RLHF는 대부분 근사 보상 모델에 의존하는데, 이는 정책을 일관되게 인간의 가치를 최대화하도록 이끌지 못할 수 있습니다. 우리는 정렬된 피드백을 위한 정책 보간 학습 (PILAF)이라는 새로운 응답 샘플링 전략을 제안합니다. 이는 명시적으로 선호 학습을 오라클 보상을 최대화하는 것과 조화시킴으로써 이루어집니다. PILAF는 이론적으로 기초를 두고 있으며, 최적화 및 통계적 관점에서 최적성을 보여줍니다. 이 방법은 구현하기 쉽고, 피드백 큐레이션이 중요한 반복 및 온라인 RLHF 환경에서 강력한 성능을 나타냅니다.
English
As large language models increasingly drive real-world applications, aligning
them with human values becomes paramount. Reinforcement Learning from Human
Feedback (RLHF) has emerged as a key technique, translating preference data
into reward models when oracle human values remain inaccessible. In practice,
RLHF mostly relies on approximate reward models, which may not consistently
guide the policy toward maximizing the underlying human values. We propose
Policy-Interpolated Learning for Aligned Feedback (PILAF), a novel response
sampling strategy for preference labeling that explicitly aligns preference
learning with maximizing the underlying oracle reward. PILAF is theoretically
grounded, demonstrating optimality from both an optimization and a statistical
perspective. The method is straightforward to implement and demonstrates strong
performance in iterative and online RLHF settings where feedback curation is
critical.Summary
AI-Generated Summary