Het meten van memorisatie in RLHF voor code-completie
Measuring memorization in RLHF for code completion
June 17, 2024
Auteurs: Aneesh Pappu, Billy Porter, Ilia Shumailov, Jamie Hayes
cs.AI
Samenvatting
Reinforcement learning met menselijke feedback (RLHF) is de dominante methode geworden om grote modellen af te stemmen op gebruikersvoorkeuren. In tegenstelling tot fine-tuning, waarover veel studies bestaan met betrekking tot het onthouden van trainingsdata, is het niet duidelijk hoe het onthouden van data wordt beïnvloed of geïntroduceerd in het RLHF-afstemmingsproces. Het begrijpen van deze relatie is belangrijk omdat echte gebruikersdata kan worden verzameld en gebruikt om grote modellen af te stemmen; als gebruikersdata tijdens RLHF wordt onthouden en later wordt herhaald, kan dit privacyzorgen oproepen. In dit werk analyseren we hoe het onthouden van trainingsdata kan ontstaan en zich kan verspreiden door elke fase van RLHF. We richten ons onderzoek op code-completiemodellen, aangezien code-completie een van de meest populaire toepassingen is voor grote taalmodellen. We ontdekken dat RLHF de kans dat data die wordt gebruikt voor beloningsmodellering en reinforcement learning wordt onthouden, aanzienlijk verkleint in vergelijking met afstemmen via directe fine-tuning op deze data, maar dat voorbeelden die al tijdens de fine-tuningfase van RLHF zijn onthouden, in de meeste gevallen ook na RLHF onthouden blijven.
English
Reinforcement learning with human feedback (RLHF) has become the dominant
method to align large models to user preferences. Unlike fine-tuning, for which
there are many studies regarding training data memorization, it is not clear
how memorization is affected by or introduced in the RLHF alignment process.
Understanding this relationship is important as real user data may be collected
and used to align large models; if user data is memorized during RLHF and later
regurgitated, this could raise privacy concerns. In this work, we analyze how
training data memorization can surface and propagate through each phase of
RLHF. We focus our study on code completion models, as code completion is one
of the most popular use cases for large language models. We find that RLHF
significantly decreases the chance that data used for reward modeling and
reinforcement learning is memorized, in comparison to aligning via directly
fine-tuning on this data, but that examples already memorized during the
fine-tuning stage of RLHF, will, in the majority of cases, remain memorized
after RLHF.