LLMs können Trainingsdaten preisgeben, aber wollen sie das? Eine neigungsbewusste Evaluierung der Memorisierung in LLMs

Zusammenfassung

Große Sprachmodelle können Trainingsdaten reproduzieren, doch bestehende Memorierungsbewertungen messen meist, ob Modelle dazu gezwungen werden können, und nicht, ob sie dies bei normaler Nutzung tun. Wir stellen PropMe vor, ein neigungsbewusstes Framework zur Memorierungsbewertung, das präfixbasierte Fähigkeitsangriffe mit nicht-adversariellen Bewertungen kontrastiert. Wir schlagen eine Metriktransformation vor, die auf bestehende Funktionen angewendet werden kann, um Neigungsmetriken zu erzeugen. Ferner führen wir SimpleTrace ein, eine leichtgewichtige Tracing-Pipeline, die auf Infini-Gram aufbaut, Modellgenerierungen deterministisch großen Trainingskorpora zuordnet und wörtliche, nahezu wörtliche sowie neigungstransformierte Memorierungsmetriken berechnet. Bei der Evaluierung zweier vollständig offener Modelle – Comma und DFM Decoder – anhand zweier Datensätze – Common Pile und Dynaword – in zwei Sprachen stellen wir eine konsistente Lücke zwischen Fähigkeit und Neigung fest: Präfixangriffe rufen wesentlich stärkere Memorierungssignale hervor als generische oder datensatzspezifische Aufforderungen, während die Neigungswerte insgesamt niedrig bleiben. Die Modelle können Trainingsdaten also preisgeben, wenn sie direkt dazu aufgefordert werden, tun dies aber selten in häufigeren, nicht-adversariellen Situationen. Wir stellen außerdem fest, dass DFM Decoder, der kontinuierlich von Comma aus vortrainiert wurde, eine geringere Memorierung und Memorierungsneigung für Common Pile aufweist, was bestätigt, dass die Memorierungsfähigkeit abnehmen kann, wenn spätere Trainingsphasen teilweise andere Daten betonen. Unsere Ergebnisse legen nahe – und wir ermutigen dazu –, dass Memorierungsaudits sowohl die Extraktionsfähigkeit im schlechtesten Fall als auch die gewöhnliche Leckage-Neigung berichten sollten, um ein umfassenderes Bild dieses Phänomens zu erhalten.

English

Large language models can reproduce training data, but existing memorization evaluations mostly measure whether models can be forced to do so, rather than whether they do so under ordinary use. We introduce PropMe, a propensity-aware framework for memorization evaluation that contrasts prefix-based capability attacks with non-adversarial evaluations. We propose a metric transformation that, applied to existing functions, allows to create propensity metrics. We further introduce SimpleTrace, a lightweight tracing pipeline built on infini-gram that deterministically attributes model generations to large-scale training corpora and computes verbatim, near-verbatim, and propensity-transformed memorization metrics. Evaluating two fully-open models: Comma and DFM Decoder on two datasets: Common Pile and Dynaword in two languages, we find a consistent gap between capability and propensity: prefix attacks elicit substantially stronger memorization signals than generic or dataset-specific prompts, while propensity scores remain low overall. Thus, the models can reveal training data when directly elicited, but rarely do so in more common non-adversarial settings. We also find that DFM Decoder, which is continually pre-trained from Comma, exhibits reduced memorization and memorization propensity for Common Pile, confirming that memorization capability can decrease when later training emphasizes partially different data. Our results suggest, and we encourage, that memorization audits should report both worst-case extractability and ordinary leakage propensity in order to have a more comprehensive view of this phenomenon.