Los LLM pueden filtrar datos de entrenamiento, ¿pero quieren hacerlo? Una evaluación basada en la propensión a la memorización en LLM.

Resumen

Los grandes modelos de lenguaje pueden reproducir datos de entrenamiento, pero las evaluaciones existentes de memorización en su mayoría miden si es posible forzar a los modelos a hacerlo, en lugar de si lo hacen bajo un uso ordinario. Presentamos PropMe, un marco consciente de la propensión para la evaluación de memorización que contrasta ataques de capacidad basados en prefijos con evaluaciones no adversariales. Proponemos una transformación de métricas que, aplicada a funciones existentes, permite crear métricas de propensión. Además, introducimos SimpleTrace, un pipeline de rastreo ligero basado en infini-gram que atribuye de manera determinista las generaciones del modelo a corpus de entrenamiento a gran escala y calcula métricas de memorización textual, casi textual y transformadas por propensión. Al evaluar dos modelos completamente abiertos, Comma y DFM Decoder, en dos conjuntos de datos, Common Pile y Dynaword, en dos idiomas, encontramos una brecha consistente entre capacidad y propensión: los ataques de prefijo generan señales de memorización sustancialmente más fuertes que las indicaciones genéricas o específicas del conjunto de datos, mientras que los puntajes de propensión se mantienen bajos en general. Por lo tanto, los modelos pueden revelar datos de entrenamiento cuando se les induce directamente, pero rara vez lo hacen en entornos no adversariales más comunes. También encontramos que DFM Decoder, que se preentrena de forma continua a partir de Comma, exhibe una reducción en la memorización y en la propensión a la memorización de Common Pile, lo que confirma que la capacidad de memorización puede disminuir cuando el entrenamiento posterior enfatiza datos parcialmente diferentes. Nuestros resultados sugieren, y alentamos, que las auditorías de memorización deberían reportar tanto la extractabilidad en el peor caso como la propensión a la filtración ordinaria para tener una visión más completa de este fenómeno.

English

Large language models can reproduce training data, but existing memorization evaluations mostly measure whether models can be forced to do so, rather than whether they do so under ordinary use. We introduce PropMe, a propensity-aware framework for memorization evaluation that contrasts prefix-based capability attacks with non-adversarial evaluations. We propose a metric transformation that, applied to existing functions, allows to create propensity metrics. We further introduce SimpleTrace, a lightweight tracing pipeline built on infini-gram that deterministically attributes model generations to large-scale training corpora and computes verbatim, near-verbatim, and propensity-transformed memorization metrics. Evaluating two fully-open models: Comma and DFM Decoder on two datasets: Common Pile and Dynaword in two languages, we find a consistent gap between capability and propensity: prefix attacks elicit substantially stronger memorization signals than generic or dataset-specific prompts, while propensity scores remain low overall. Thus, the models can reveal training data when directly elicited, but rarely do so in more common non-adversarial settings. We also find that DFM Decoder, which is continually pre-trained from Comma, exhibits reduced memorization and memorization propensity for Common Pile, confirming that memorization capability can decrease when later training emphasizes partially different data. Our results suggest, and we encourage, that memorization audits should report both worst-case extractability and ordinary leakage propensity in order to have a more comprehensive view of this phenomenon.