ChatPaper.aiChatPaper

PILAF : Échantillonnage optimal des préférences humaines pour la modélisation des récompenses

PILAF: Optimal Human Preference Sampling for Reward Modeling

February 6, 2025
Auteurs: Yunzhen Feng, Ariel Kwiatkowski, Kunhao Zheng, Julia Kempe, Yaqi Duan
cs.AI

Résumé

À mesure que les grands modèles de langage alimentent de plus en plus d'applications réelles, les aligner avec les valeurs humaines devient primordial. L'apprentissage par renforcement à partir des retours humains (RLHF) est apparu comme une technique clé, traduisant les données de préférence en modèles de récompense lorsque les valeurs humaines de l'oracle restent inaccessibles. En pratique, le RLHF repose principalement sur des modèles de récompense approximatifs, qui peuvent ne pas guider de manière cohérente la politique vers la maximisation des valeurs humaines sous-jacentes. Nous proposons l'apprentissage interpolé de politique pour les retours alignés (PILAF), une nouvelle stratégie d'échantillonnage de réponse pour l'étiquetage des préférences qui aligne explicitement l'apprentissage des préférences avec la maximisation de la récompense de l'oracle sous-jacente. PILAF est théoriquement fondé, démontrant l'optimalité à la fois d'un point de vue d'optimisation et statistique. La méthode est simple à mettre en œuvre et montre de bonnes performances dans les paramètres RLHF itératifs et en ligne où la curation des retours est cruciale.
English
As large language models increasingly drive real-world applications, aligning them with human values becomes paramount. Reinforcement Learning from Human Feedback (RLHF) has emerged as a key technique, translating preference data into reward models when oracle human values remain inaccessible. In practice, RLHF mostly relies on approximate reward models, which may not consistently guide the policy toward maximizing the underlying human values. We propose Policy-Interpolated Learning for Aligned Feedback (PILAF), a novel response sampling strategy for preference labeling that explicitly aligns preference learning with maximizing the underlying oracle reward. PILAF is theoretically grounded, demonstrating optimality from both an optimization and a statistical perspective. The method is straightforward to implement and demonstrates strong performance in iterative and online RLHF settings where feedback curation is critical.

Summary

AI-Generated Summary

PDF112February 7, 2025