Seja como um peixinho dourado, não memorize! Mitigando a memorização em LLMs generativos
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs
June 14, 2024
Autores: Abhimanyu Hans, Yuxin Wen, Neel Jain, John Kirchenbauer, Hamid Kazemi, Prajwal Singhania, Siddharth Singh, Gowthami Somepalli, Jonas Geiping, Abhinav Bhatele, Tom Goldstein
cs.AI
Resumo
Modelos de linguagem de grande escala podem memorizar e repetir seus dados de treinamento, causando riscos de privacidade e direitos autorais. Para mitigar a memorização, introduzimos uma modificação sutil no objetivo de treinamento de próximo token, que chamamos de perda goldfish. Durante o treinamento, um subconjunto aleatório de tokens é excluído do cálculo da perda. Esses tokens descartados não são memorizados pelo modelo, o que impede a reprodução textual de uma cadeia completa de tokens do conjunto de treinamento. Realizamos extensos experimentos treinando modelos Llama-2 em escala de bilhões, tanto pré-treinados quanto treinados do zero, e demonstramos reduções significativas na memorização extraível com pouco ou nenhum impacto nos benchmarks subsequentes.
English
Large language models can memorize and repeat their training data, causing
privacy and copyright risks. To mitigate memorization, we introduce a subtle
modification to the next-token training objective that we call the goldfish
loss. During training, a randomly sampled subset of tokens are excluded from
the loss computation. These dropped tokens are not memorized by the model,
which prevents verbatim reproduction of a complete chain of tokens from the
training set. We run extensive experiments training billion-scale Llama-2
models, both pre-trained and trained from scratch, and demonstrate significant
reductions in extractable memorization with little to no impact on downstream
benchmarks.