LLMs Podem Vazar Dados de Treinamento, Mas Eles Querem? Uma Avaliação Ciente da Propensão da Memorização em LLMs

Resumo

Grandes modelos de linguagem podem reproduzir dados de treinamento, mas as avaliações existentes de memorização medem principalmente se é possível forçá-los a fazê-lo, em vez de se eles realmente o fazem sob uso comum. Apresentamos o PropMe, uma estrutura baseada em propensão para avaliação de memorização que contrasta ataques de capacidade baseados em prefixo com avaliações não adversariais. Propomos uma transformação de métrica que, aplicada a funções existentes, permite criar métricas de propensão. Além disso, introduzimos o SimpleTrace, um pipeline de rastreamento leve construído sobre o infini-gram que atribui deterministicamente gerações de modelos a corpora de treinamento em grande escala e calcula métricas de memorização textual, quase textual e transformadas por propensão. Avaliando dois modelos totalmente abertos, Comma e DFM Decoder, em dois conjuntos de dados, Common Pile e Dynaword, em dois idiomas, encontramos uma lacuna consistente entre capacidade e propensão: ataques de prefixo elicitam sinais de memorização substancialmente mais fortes do que prompts genéricos ou específicos do conjunto de dados, enquanto os escores de propensão permanecem baixos de forma geral. Assim, os modelos podem revelar dados de treinamento quando diretamente solicitados, mas raramente o fazem em configurações não adversariais mais comuns. Também descobrimos que o DFM Decoder, que é pré-treinado continuamente a partir do Comma, exibe memorização reduzida e propensão de memorização para o Common Pile, confirmando que a capacidade de memorização pode diminuir quando o treinamento posterior enfatiza dados parcialmente diferentes. Nossos resultados sugerem, e incentivamos, que auditorias de memorização devem relatar tanto a extraibilidade no pior caso quanto a propensão de vazamento comum, a fim de se ter uma visão mais abrangente desse fenômeno.

English

Large language models can reproduce training data, but existing memorization evaluations mostly measure whether models can be forced to do so, rather than whether they do so under ordinary use. We introduce PropMe, a propensity-aware framework for memorization evaluation that contrasts prefix-based capability attacks with non-adversarial evaluations. We propose a metric transformation that, applied to existing functions, allows to create propensity metrics. We further introduce SimpleTrace, a lightweight tracing pipeline built on infini-gram that deterministically attributes model generations to large-scale training corpora and computes verbatim, near-verbatim, and propensity-transformed memorization metrics. Evaluating two fully-open models: Comma and DFM Decoder on two datasets: Common Pile and Dynaword in two languages, we find a consistent gap between capability and propensity: prefix attacks elicit substantially stronger memorization signals than generic or dataset-specific prompts, while propensity scores remain low overall. Thus, the models can reveal training data when directly elicited, but rarely do so in more common non-adversarial settings. We also find that DFM Decoder, which is continually pre-trained from Comma, exhibits reduced memorization and memorization propensity for Common Pile, confirming that memorization capability can decrease when later training emphasizes partially different data. Our results suggest, and we encourage, that memorization audits should report both worst-case extractability and ordinary leakage propensity in order to have a more comprehensive view of this phenomenon.