LLM могут допускать утечку обучающих данных, но хотят ли они этого? Оценка запоминания в LLM с учетом предрасположенности

Аннотация

Большие языковые модели могут воспроизводить обучающие данные, но существующие оценки запоминания в основном измеряют, можно ли заставить модели делать это, а не делают ли они это при обычном использовании. Мы представляем PropMe — фреймворк, учитывающий склонность, для оценки запоминания, который противопоставляет атаки на основе префиксов (атаки, основанные на способности) невраждебным оценкам. Мы предлагаем преобразование метрик, которое, будучи примененным к существующим функциям, позволяет создавать метрики склонности. Мы также представляем SimpleTrace — легковесный конвейер трассировки, построенный на infini-gram, который детерминированно приписывает сгенерированные моделью данные крупномасштабным обучающим корпусам и вычисляет метрики запоминания: дословные, почти дословные и преобразованные с учетом склонности. Оценивая две полностью открытые модели: Comma и DFM Decoder на двух наборах данных: Common Pile и Dynaword на двух языках, мы обнаруживаем устойчивый разрыв между способностью и склонностью: атаки на основе префиксов вызывают значительно более сильные сигналы запоминания, чем общие или специфичные для набора данных промпты, в то время как показатели склонности в целом остаются низкими. Таким образом, модели могут раскрывать обучающие данные при прямом запросе, но редко делают это в более распространенных невраждебных условиях. Мы также обнаруживаем, что DFM Decoder, который непрерывно предобучается на основе Comma, демонстрирует сниженное запоминание и склонность к запоминанию для Common Pile, что подтверждает, что способность к запоминанию может уменьшаться, когда последующее обучение акцентируется на частично отличающихся данных. Наши результаты показывают, и мы рекомендуем, чтобы аудиты запоминания сообщали как о наихудшей извлекаемости, так и об обычной склонности к утечке, чтобы получить более полное представление об этом явлении.

English

Large language models can reproduce training data, but existing memorization evaluations mostly measure whether models can be forced to do so, rather than whether they do so under ordinary use. We introduce PropMe, a propensity-aware framework for memorization evaluation that contrasts prefix-based capability attacks with non-adversarial evaluations. We propose a metric transformation that, applied to existing functions, allows to create propensity metrics. We further introduce SimpleTrace, a lightweight tracing pipeline built on infini-gram that deterministically attributes model generations to large-scale training corpora and computes verbatim, near-verbatim, and propensity-transformed memorization metrics. Evaluating two fully-open models: Comma and DFM Decoder on two datasets: Common Pile and Dynaword in two languages, we find a consistent gap between capability and propensity: prefix attacks elicit substantially stronger memorization signals than generic or dataset-specific prompts, while propensity scores remain low overall. Thus, the models can reveal training data when directly elicited, but rarely do so in more common non-adversarial settings. We also find that DFM Decoder, which is continually pre-trained from Comma, exhibits reduced memorization and memorization propensity for Common Pile, confirming that memorization capability can decrease when later training emphasizes partially different data. Our results suggest, and we encourage, that memorization audits should report both worst-case extractability and ordinary leakage propensity in order to have a more comprehensive view of this phenomenon.