Wees als een Goudvis, Memoriseer Niet! Het Verminderen van Memoreren in Generatieve Taalmodellen
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs
June 14, 2024
Auteurs: Abhimanyu Hans, Yuxin Wen, Neel Jain, John Kirchenbauer, Hamid Kazemi, Prajwal Singhania, Siddharth Singh, Gowthami Somepalli, Jonas Geiping, Abhinav Bhatele, Tom Goldstein
cs.AI
Samenvatting
Grote taalmodelen kunnen hun trainingsgegevens onthouden en herhalen, wat privacy- en auteursrechtenrisico's met zich meebrengt. Om memorisering te verminderen, introduceren we een subtiele aanpassing aan het next-token trainingsdoel, die we de goldfish loss noemen. Tijdens de training wordt een willekeurig geselecteerde subset van tokens uitgesloten van de loss-berekening. Deze weggelaten tokens worden niet onthouden door het model, wat letterlijke reproductie van een complete reeks tokens uit de trainingsset voorkomt. We voeren uitgebreide experimenten uit met het trainen van miljardenschalige Llama-2-modellen, zowel vooraf getraind als vanaf nul getraind, en tonen aanzienlijke verminderingen in extracteerbare memorisering aan, met weinig tot geen impact op downstream benchmarks.
English
Large language models can memorize and repeat their training data, causing
privacy and copyright risks. To mitigate memorization, we introduce a subtle
modification to the next-token training objective that we call the goldfish
loss. During training, a randomly sampled subset of tokens are excluded from
the loss computation. These dropped tokens are not memorized by the model,
which prevents verbatim reproduction of a complete chain of tokens from the
training set. We run extensive experiments training billion-scale Llama-2
models, both pre-trained and trained from scratch, and demonstrate significant
reductions in extractable memorization with little to no impact on downstream
benchmarks.