Mesurer la mémorisation dans l'apprentissage par renforcement à partir de feedback humain pour la complétion de code
Measuring memorization in RLHF for code completion
June 17, 2024
Auteurs: Aneesh Pappu, Billy Porter, Ilia Shumailov, Jamie Hayes
cs.AI
Résumé
L'apprentissage par renforcement avec feedback humain (RLHF) est devenu la méthode dominante pour aligner les grands modèles sur les préférences des utilisateurs. Contrairement au fine-tuning, pour lequel de nombreuses études existent concernant la mémorisation des données d'entraînement, il n'est pas clair comment la mémorisation est affectée ou introduite dans le processus d'alignement RLHF. Comprendre cette relation est important car des données réelles d'utilisateurs peuvent être collectées et utilisées pour aligner les grands modèles ; si les données des utilisateurs sont mémorisées pendant le RLHF et ensuite restituées, cela pourrait soulever des préoccupations en matière de confidentialité. Dans ce travail, nous analysons comment la mémorisation des données d'entraînement peut émerger et se propager à travers chaque phase du RLHF. Nous concentrons notre étude sur les modèles de complétion de code, car la complétion de code est l'un des cas d'utilisation les plus populaires pour les grands modèles de langage. Nous constatons que le RLHF réduit significativement la probabilité que les données utilisées pour la modélisation des récompenses et l'apprentissage par renforcement soient mémorisées, par rapport à un alignement via un fine-tuning direct sur ces données, mais que les exemples déjà mémorisés pendant l'étape de fine-tuning du RLHF resteront, dans la majorité des cas, mémorisés après le RLHF.
English
Reinforcement learning with human feedback (RLHF) has become the dominant
method to align large models to user preferences. Unlike fine-tuning, for which
there are many studies regarding training data memorization, it is not clear
how memorization is affected by or introduced in the RLHF alignment process.
Understanding this relationship is important as real user data may be collected
and used to align large models; if user data is memorized during RLHF and later
regurgitated, this could raise privacy concerns. In this work, we analyze how
training data memorization can surface and propagate through each phase of
RLHF. We focus our study on code completion models, as code completion is one
of the most popular use cases for large language models. We find that RLHF
significantly decreases the chance that data used for reward modeling and
reinforcement learning is memorized, in comparison to aligning via directly
fine-tuning on this data, but that examples already memorized during the
fine-tuning stage of RLHF, will, in the majority of cases, remain memorized
after RLHF.Summary
AI-Generated Summary