Midiendo la memorización a través de la extracción probabilística descubrible.

Resumen

Los modelos de lenguaje grandes (LLMs) son susceptibles a memorizar datos de entrenamiento, lo que plantea preocupaciones debido a la posible extracción de información sensible. Los métodos actuales para medir las tasas de memorización de LLMs, principalmente la extracción descubrible (Carlini et al., 2022), se basan en muestreo codicioso de secuencia única, subestimando potencialmente la verdadera extensión de la memorización. Este artículo introduce una relajación probabilística de la extracción descubrible que cuantifica la probabilidad de extraer una secuencia objetivo dentro de un conjunto de muestras generadas, considerando varios esquemas de muestreo y múltiples intentos. Este enfoque aborda las limitaciones de informar tasas de memorización a través de la extracción descubrible al tener en cuenta la naturaleza probabilística de los LLMs y los patrones de interacción del usuario. Nuestros experimentos demuestran que esta medida probabilística puede revelar casos de tasas de memorización más altas en comparación con las tasas encontradas a través de la extracción descubrible. Investigamos además el impacto de diferentes esquemas de muestreo en la extraibilidad, proporcionando una evaluación más completa y realista de la memorización de LLM y sus riesgos asociados. Nuestras contribuciones incluyen una nueva definición de memorización probabilística, evidencia empírica de su efectividad y una evaluación exhaustiva en diferentes modelos, tamaños, esquemas de muestreo y repeticiones de datos de entrenamiento.

English

Large language models (LLMs) are susceptible to memorizing training data, raising concerns due to the potential extraction of sensitive information. Current methods to measure memorization rates of LLMs, primarily discoverable extraction (Carlini et al., 2022), rely on single-sequence greedy sampling, potentially underestimating the true extent of memorization. This paper introduces a probabilistic relaxation of discoverable extraction that quantifies the probability of extracting a target sequence within a set of generated samples, considering various sampling schemes and multiple attempts. This approach addresses the limitations of reporting memorization rates through discoverable extraction by accounting for the probabilistic nature of LLMs and user interaction patterns. Our experiments demonstrate that this probabilistic measure can reveal cases of higher memorization rates compared to rates found through discoverable extraction. We further investigate the impact of different sampling schemes on extractability, providing a more comprehensive and realistic assessment of LLM memorization and its associated risks. Our contributions include a new probabilistic memorization definition, empirical evidence of its effectiveness, and a thorough evaluation across different models, sizes, sampling schemes, and training data repetitions.

Midiendo la memorización a través de la extracción probabilística descubrible.

Measuring memorization through probabilistic discoverable extraction

Resumen

Support