Medición de la memorización en RLHF para la finalización de código

Resumen

El aprendizaje por refuerzo con retroalimentación humana (RLHF, por sus siglas en inglés) se ha convertido en el método dominante para alinear modelos grandes con las preferencias de los usuarios. A diferencia del ajuste fino, para el cual existen muchos estudios sobre la memorización de datos de entrenamiento, no está claro cómo la memorización se ve afectada o se introduce en el proceso de alineación mediante RLHF. Comprender esta relación es importante, ya que se pueden recopilar y utilizar datos reales de usuarios para alinear modelos grandes; si los datos de los usuarios se memorizan durante RLHF y luego se reproducen, esto podría generar preocupaciones de privacidad. En este trabajo, analizamos cómo la memorización de datos de entrenamiento puede surgir y propagarse a través de cada fase de RLHF. Centramos nuestro estudio en modelos de completado de código, ya que el completado de código es uno de los casos de uso más populares para los modelos de lenguaje grandes. Descubrimos que RLHF reduce significativamente la probabilidad de que los datos utilizados para el modelado de recompensas y el aprendizaje por refuerzo se memoricen, en comparación con la alineación mediante el ajuste fino directo sobre estos datos, pero que los ejemplos ya memorizados durante la etapa de ajuste fino de RLHF, en la mayoría de los casos, permanecerán memorizados después de RLHF.

English

Reinforcement learning with human feedback (RLHF) has become the dominant method to align large models to user preferences. Unlike fine-tuning, for which there are many studies regarding training data memorization, it is not clear how memorization is affected by or introduced in the RLHF alignment process. Understanding this relationship is important as real user data may be collected and used to align large models; if user data is memorized during RLHF and later regurgitated, this could raise privacy concerns. In this work, we analyze how training data memorization can surface and propagate through each phase of RLHF. We focus our study on code completion models, as code completion is one of the most popular use cases for large language models. We find that RLHF significantly decreases the chance that data used for reward modeling and reinforcement learning is memorized, in comparison to aligning via directly fine-tuning on this data, but that examples already memorized during the fine-tuning stage of RLHF, will, in the majority of cases, remain memorized after RLHF.

Medición de la memorización en RLHF para la finalización de código

Measuring memorization in RLHF for code completion

Resumen

Support