Midiendo la memorización a través de la extracción probabilística descubrible.
Measuring memorization through probabilistic discoverable extraction
October 25, 2024
Autores: Jamie Hayes, Marika Swanberg, Harsh Chaudhari, Itay Yona, Ilia Shumailov
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) son susceptibles a memorizar datos de entrenamiento, lo que plantea preocupaciones debido a la posible extracción de información sensible. Los métodos actuales para medir las tasas de memorización de LLMs, principalmente la extracción descubrible (Carlini et al., 2022), se basan en muestreo codicioso de secuencia única, subestimando potencialmente la verdadera extensión de la memorización. Este artículo introduce una relajación probabilística de la extracción descubrible que cuantifica la probabilidad de extraer una secuencia objetivo dentro de un conjunto de muestras generadas, considerando varios esquemas de muestreo y múltiples intentos. Este enfoque aborda las limitaciones de informar tasas de memorización a través de la extracción descubrible al tener en cuenta la naturaleza probabilística de los LLMs y los patrones de interacción del usuario. Nuestros experimentos demuestran que esta medida probabilística puede revelar casos de tasas de memorización más altas en comparación con las tasas encontradas a través de la extracción descubrible. Investigamos además el impacto de diferentes esquemas de muestreo en la extraibilidad, proporcionando una evaluación más completa y realista de la memorización de LLM y sus riesgos asociados. Nuestras contribuciones incluyen una nueva definición de memorización probabilística, evidencia empírica de su efectividad y una evaluación exhaustiva en diferentes modelos, tamaños, esquemas de muestreo y repeticiones de datos de entrenamiento.
English
Large language models (LLMs) are susceptible to memorizing training data,
raising concerns due to the potential extraction of sensitive information.
Current methods to measure memorization rates of LLMs, primarily discoverable
extraction (Carlini et al., 2022), rely on single-sequence greedy sampling,
potentially underestimating the true extent of memorization. This paper
introduces a probabilistic relaxation of discoverable extraction that
quantifies the probability of extracting a target sequence within a set of
generated samples, considering various sampling schemes and multiple attempts.
This approach addresses the limitations of reporting memorization rates through
discoverable extraction by accounting for the probabilistic nature of LLMs and
user interaction patterns. Our experiments demonstrate that this probabilistic
measure can reveal cases of higher memorization rates compared to rates found
through discoverable extraction. We further investigate the impact of different
sampling schemes on extractability, providing a more comprehensive and
realistic assessment of LLM memorization and its associated risks. Our
contributions include a new probabilistic memorization definition, empirical
evidence of its effectiveness, and a thorough evaluation across different
models, sizes, sampling schemes, and training data repetitions.Summary
AI-Generated Summary