Het meten van memorisatie in RLHF voor code-completie

Samenvatting

Reinforcement learning met menselijke feedback (RLHF) is de dominante methode geworden om grote modellen af te stemmen op gebruikersvoorkeuren. In tegenstelling tot fine-tuning, waarover veel studies bestaan met betrekking tot het onthouden van trainingsdata, is het niet duidelijk hoe het onthouden van data wordt beïnvloed of geïntroduceerd in het RLHF-afstemmingsproces. Het begrijpen van deze relatie is belangrijk omdat echte gebruikersdata kan worden verzameld en gebruikt om grote modellen af te stemmen; als gebruikersdata tijdens RLHF wordt onthouden en later wordt herhaald, kan dit privacyzorgen oproepen. In dit werk analyseren we hoe het onthouden van trainingsdata kan ontstaan en zich kan verspreiden door elke fase van RLHF. We richten ons onderzoek op code-completiemodellen, aangezien code-completie een van de meest populaire toepassingen is voor grote taalmodellen. We ontdekken dat RLHF de kans dat data die wordt gebruikt voor beloningsmodellering en reinforcement learning wordt onthouden, aanzienlijk verkleint in vergelijking met afstemmen via directe fine-tuning op deze data, maar dat voorbeelden die al tijdens de fine-tuningfase van RLHF zijn onthouden, in de meeste gevallen ook na RLHF onthouden blijven.

English

Reinforcement learning with human feedback (RLHF) has become the dominant method to align large models to user preferences. Unlike fine-tuning, for which there are many studies regarding training data memorization, it is not clear how memorization is affected by or introduced in the RLHF alignment process. Understanding this relationship is important as real user data may be collected and used to align large models; if user data is memorized during RLHF and later regurgitated, this could raise privacy concerns. In this work, we analyze how training data memorization can surface and propagate through each phase of RLHF. We focus our study on code completion models, as code completion is one of the most popular use cases for large language models. We find that RLHF significantly decreases the chance that data used for reward modeling and reinforcement learning is memorized, in comparison to aligning via directly fine-tuning on this data, but that examples already memorized during the fine-tuning stage of RLHF, will, in the majority of cases, remain memorized after RLHF.

Het meten van memorisatie in RLHF voor code-completie

Measuring memorization in RLHF for code completion

Samenvatting

Support