Mesurer la mémorisation dans l'apprentissage par renforcement à partir de feedback humain pour la complétion de code

papers.abstract

L'apprentissage par renforcement avec feedback humain (RLHF) est devenu la méthode dominante pour aligner les grands modèles sur les préférences des utilisateurs. Contrairement au fine-tuning, pour lequel de nombreuses études existent concernant la mémorisation des données d'entraînement, il n'est pas clair comment la mémorisation est affectée ou introduite dans le processus d'alignement RLHF. Comprendre cette relation est important car des données réelles d'utilisateurs peuvent être collectées et utilisées pour aligner les grands modèles ; si les données des utilisateurs sont mémorisées pendant le RLHF et ensuite restituées, cela pourrait soulever des préoccupations en matière de confidentialité. Dans ce travail, nous analysons comment la mémorisation des données d'entraînement peut émerger et se propager à travers chaque phase du RLHF. Nous concentrons notre étude sur les modèles de complétion de code, car la complétion de code est l'un des cas d'utilisation les plus populaires pour les grands modèles de langage. Nous constatons que le RLHF réduit significativement la probabilité que les données utilisées pour la modélisation des récompenses et l'apprentissage par renforcement soient mémorisées, par rapport à un alignement via un fine-tuning direct sur ces données, mais que les exemples déjà mémorisés pendant l'étape de fine-tuning du RLHF resteront, dans la majorité des cas, mémorisés après le RLHF.

English

Reinforcement learning with human feedback (RLHF) has become the dominant method to align large models to user preferences. Unlike fine-tuning, for which there are many studies regarding training data memorization, it is not clear how memorization is affected by or introduced in the RLHF alignment process. Understanding this relationship is important as real user data may be collected and used to align large models; if user data is memorized during RLHF and later regurgitated, this could raise privacy concerns. In this work, we analyze how training data memorization can surface and propagate through each phase of RLHF. We focus our study on code completion models, as code completion is one of the most popular use cases for large language models. We find that RLHF significantly decreases the chance that data used for reward modeling and reinforcement learning is memorized, in comparison to aligning via directly fine-tuning on this data, but that examples already memorized during the fine-tuning stage of RLHF, will, in the majority of cases, remain memorized after RLHF.

Mesurer la mémorisation dans l'apprentissage par renforcement à partir de feedback humain pour la complétion de code

Measuring memorization in RLHF for code completion

papers.abstract

Support