Medición de la memorización en RLHF para la finalización de código
Measuring memorization in RLHF for code completion
June 17, 2024
Autores: Aneesh Pappu, Billy Porter, Ilia Shumailov, Jamie Hayes
cs.AI
Resumen
El aprendizaje por refuerzo con retroalimentación humana (RLHF, por sus siglas en inglés) se ha convertido en el método dominante para alinear modelos grandes con las preferencias de los usuarios. A diferencia del ajuste fino, para el cual existen muchos estudios sobre la memorización de datos de entrenamiento, no está claro cómo la memorización se ve afectada o se introduce en el proceso de alineación mediante RLHF. Comprender esta relación es importante, ya que se pueden recopilar y utilizar datos reales de usuarios para alinear modelos grandes; si los datos de los usuarios se memorizan durante RLHF y luego se reproducen, esto podría generar preocupaciones de privacidad. En este trabajo, analizamos cómo la memorización de datos de entrenamiento puede surgir y propagarse a través de cada fase de RLHF. Centramos nuestro estudio en modelos de completado de código, ya que el completado de código es uno de los casos de uso más populares para los modelos de lenguaje grandes. Descubrimos que RLHF reduce significativamente la probabilidad de que los datos utilizados para el modelado de recompensas y el aprendizaje por refuerzo se memoricen, en comparación con la alineación mediante el ajuste fino directo sobre estos datos, pero que los ejemplos ya memorizados durante la etapa de ajuste fino de RLHF, en la mayoría de los casos, permanecerán memorizados después de RLHF.
English
Reinforcement learning with human feedback (RLHF) has become the dominant
method to align large models to user preferences. Unlike fine-tuning, for which
there are many studies regarding training data memorization, it is not clear
how memorization is affected by or introduced in the RLHF alignment process.
Understanding this relationship is important as real user data may be collected
and used to align large models; if user data is memorized during RLHF and later
regurgitated, this could raise privacy concerns. In this work, we analyze how
training data memorization can surface and propagate through each phase of
RLHF. We focus our study on code completion models, as code completion is one
of the most popular use cases for large language models. We find that RLHF
significantly decreases the chance that data used for reward modeling and
reinforcement learning is memorized, in comparison to aligning via directly
fine-tuning on this data, but that examples already memorized during the
fine-tuning stage of RLHF, will, in the majority of cases, remain memorized
after RLHF.Summary
AI-Generated Summary