PILAF : Échantillonnage optimal des préférences humaines pour la modélisation des récompenses
PILAF: Optimal Human Preference Sampling for Reward Modeling
February 6, 2025
Auteurs: Yunzhen Feng, Ariel Kwiatkowski, Kunhao Zheng, Julia Kempe, Yaqi Duan
cs.AI
Résumé
À mesure que les grands modèles de langage alimentent de plus en plus d'applications réelles, les aligner avec les valeurs humaines devient primordial. L'apprentissage par renforcement à partir des retours humains (RLHF) est apparu comme une technique clé, traduisant les données de préférence en modèles de récompense lorsque les valeurs humaines de l'oracle restent inaccessibles. En pratique, le RLHF repose principalement sur des modèles de récompense approximatifs, qui peuvent ne pas guider de manière cohérente la politique vers la maximisation des valeurs humaines sous-jacentes. Nous proposons l'apprentissage interpolé de politique pour les retours alignés (PILAF), une nouvelle stratégie d'échantillonnage de réponse pour l'étiquetage des préférences qui aligne explicitement l'apprentissage des préférences avec la maximisation de la récompense de l'oracle sous-jacente. PILAF est théoriquement fondé, démontrant l'optimalité à la fois d'un point de vue d'optimisation et statistique. La méthode est simple à mettre en œuvre et montre de bonnes performances dans les paramètres RLHF itératifs et en ligne où la curation des retours est cruciale.
English
As large language models increasingly drive real-world applications, aligning
them with human values becomes paramount. Reinforcement Learning from Human
Feedback (RLHF) has emerged as a key technique, translating preference data
into reward models when oracle human values remain inaccessible. In practice,
RLHF mostly relies on approximate reward models, which may not consistently
guide the policy toward maximizing the underlying human values. We propose
Policy-Interpolated Learning for Aligned Feedback (PILAF), a novel response
sampling strategy for preference labeling that explicitly aligns preference
learning with maximizing the underlying oracle reward. PILAF is theoretically
grounded, demonstrating optimality from both an optimization and a statistical
perspective. The method is straightforward to implement and demonstrates strong
performance in iterative and online RLHF settings where feedback curation is
critical.Summary
AI-Generated Summary