Les LLMs peuvent divulguer des données d’entraînement, mais le veulent-ils ? Une évaluation de la mémorisation dans les LLMs tenant compte de la propension.

Résumé

Les grands modèles de langage peuvent reproduire des données d'entraînement, mais les évaluations existantes de la mémorisation mesurent surtout si on peut les forcer à le faire, plutôt que si cela se produit en utilisation ordinaire. Nous introduisons PropMe, un cadre sensible à la propension pour l'évaluation de la mémorisation, qui oppose les attaques de capacité basées sur un préfixe aux évaluations non adverses. Nous proposons une transformation métrique qui, appliquée à des fonctions existantes, permet de créer des métriques de propension. Nous présentons également SimpleTrace, un pipeline de traçage léger construit sur infini-gram, qui attribue de manière déterministe les générations du modèle à des corpus d'entraînement à grande échelle et calcule des métriques de mémorisation verbatim, quasi-verbatim et transformées par propension. En évaluant deux modèles entièrement ouverts, Comma et DFM Decoder, sur deux ensembles de données, Common Pile et Dynaword, dans deux langues, nous constatons un écart constant entre capacité et propension : les attaques par préfixe génèrent des signaux de mémorisation nettement plus forts que les prompts génériques ou spécifiques à un ensemble de données, tandis que les scores de propension restent globalement faibles. Ainsi, les modèles peuvent révéler des données d'entraînement lorsqu'ils sont directement sollicités, mais le font rarement dans les contextes non adverses plus courants. Nous constatons également que DFM Decoder, pré-entraîné de manière continue à partir de Comma, présente une mémorisation et une propension à la mémorisation réduites pour Common Pile, confirmant que la capacité de mémorisation peut diminuer lorsque l'entraînement ultérieur met l'accent sur des données partiellement différentes. Nos résultats suggèrent – et nous encourageons – que les audits de mémorisation devraient rapporter à la fois l'extractabilité dans le pire des cas et la propension aux fuites ordinaires, afin d'obtenir une vision plus complète de ce phénomène.

English

Large language models can reproduce training data, but existing memorization evaluations mostly measure whether models can be forced to do so, rather than whether they do so under ordinary use. We introduce PropMe, a propensity-aware framework for memorization evaluation that contrasts prefix-based capability attacks with non-adversarial evaluations. We propose a metric transformation that, applied to existing functions, allows to create propensity metrics. We further introduce SimpleTrace, a lightweight tracing pipeline built on infini-gram that deterministically attributes model generations to large-scale training corpora and computes verbatim, near-verbatim, and propensity-transformed memorization metrics. Evaluating two fully-open models: Comma and DFM Decoder on two datasets: Common Pile and Dynaword in two languages, we find a consistent gap between capability and propensity: prefix attacks elicit substantially stronger memorization signals than generic or dataset-specific prompts, while propensity scores remain low overall. Thus, the models can reveal training data when directly elicited, but rarely do so in more common non-adversarial settings. We also find that DFM Decoder, which is continually pre-trained from Comma, exhibits reduced memorization and memorization propensity for Common Pile, confirming that memorization capability can decrease when later training emphasizes partially different data. Our results suggest, and we encourage, that memorization audits should report both worst-case extractability and ordinary leakage propensity in order to have a more comprehensive view of this phenomenon.