LLM's kunnen trainingsdata lekken, maar willen ze dat ook? Een neiging-bewuste evaluatie van memorisatie in LLM's

Samenvatting

Grote taalmodellen kunnen trainingsdata reproduceren, maar bestaande memorisatie-evaluaties meten vooral of modellen daartoe gedwongen kunnen worden, in plaats van of zij dit doen onder normaal gebruik. We introduceren PropMe, een neiging-bewust raamwerk voor memorisatie-evaluatie dat prefix-gebaseerde capaciteitsaanvallen contrasteert met niet-adversariële evaluaties. We stellen een metrische transformatie voor die, toegepast op bestaande functies, het mogelijk maakt neigingsmetrieken te creëren. Verder introduceren we SimpleTrace, een lichtgewicht traceringspijplijn gebouwd op infini-gram die modelgeneraties deterministisch toeschrijft aan grootschalige trainingscorpora en letterlijke, bijna-letterlijke en neiging-getransformeerde memorisatiemetrieken berekent. Bij het evalueren van twee volledig open modellen: Comma en DFM Decoder op twee datasets: Common Pile en Dynaword in twee talen, vinden we een consistente kloof tussen capaciteit en neiging: prefix-aanvallen lokken aanzienlijk sterkere memorisatiesignalen uit dan generieke of datasetspecifieke prompts, terwijl neigingsscores over het algemeen laag blijven. De modellen kunnen dus trainingsdata onthullen wanneer direct uitgelokt, maar doen dit zelden in meer gangbare niet-adversariële omgevingen. We vinden ook dat DFM Decoder, die continu is voorgetraind vanuit Comma, verminderde memorisatie en memorisatieneiging voor Common Pile vertoont, wat bevestigt dat memorisatiecapaciteit kan afnemen wanneer latere training de nadruk legt op gedeeltelijk andere data. Onze resultaten suggereren, en we moedigen aan, dat memorisatie-audits zowel de worst-case extraheerbaarheid als de gewone lekkage-neiging moeten rapporteren om een vollediger beeld van dit fenomeen te krijgen.

English

Large language models can reproduce training data, but existing memorization evaluations mostly measure whether models can be forced to do so, rather than whether they do so under ordinary use. We introduce PropMe, a propensity-aware framework for memorization evaluation that contrasts prefix-based capability attacks with non-adversarial evaluations. We propose a metric transformation that, applied to existing functions, allows to create propensity metrics. We further introduce SimpleTrace, a lightweight tracing pipeline built on infini-gram that deterministically attributes model generations to large-scale training corpora and computes verbatim, near-verbatim, and propensity-transformed memorization metrics. Evaluating two fully-open models: Comma and DFM Decoder on two datasets: Common Pile and Dynaword in two languages, we find a consistent gap between capability and propensity: prefix attacks elicit substantially stronger memorization signals than generic or dataset-specific prompts, while propensity scores remain low overall. Thus, the models can reveal training data when directly elicited, but rarely do so in more common non-adversarial settings. We also find that DFM Decoder, which is continually pre-trained from Comma, exhibits reduced memorization and memorization propensity for Common Pile, confirming that memorization capability can decrease when later training emphasizes partially different data. Our results suggest, and we encourage, that memorization audits should report both worst-case extractability and ordinary leakage propensity in order to have a more comprehensive view of this phenomenon.