Sei wie ein Goldfisch, Merke dir nichts! Die Minderung der Memorierung in generativen LLMs.
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs
June 14, 2024
Autoren: Abhimanyu Hans, Yuxin Wen, Neel Jain, John Kirchenbauer, Hamid Kazemi, Prajwal Singhania, Siddharth Singh, Gowthami Somepalli, Jonas Geiping, Abhinav Bhatele, Tom Goldstein
cs.AI
Zusammenfassung
Große Sprachmodelle können ihre Trainingsdaten auswendig lernen und wiederholen, was Datenschutz- und Urheberrechtsrisiken verursacht. Um das Auswendiglernen zu reduzieren, führen wir eine subtile Modifikation des Trainingsziels für das nächste Token ein, das wir als Goldfischverlust bezeichnen. Während des Trainings werden zufällig ausgewählte Teilmengen von Tokens von der Verlustberechnung ausgeschlossen. Diese verworfenen Tokens werden vom Modell nicht auswendig gelernt, was die wortwörtliche Wiedergabe einer vollständigen Kette von Tokens aus dem Trainingsdatensatz verhindert. Wir führen umfangreiche Experimente mit dem Training von Milliarden-Sprachmodellen Llama-2 durch, sowohl vortrainiert als auch von Grund auf trainiert, und zeigen signifikante Reduzierungen der extrahierbaren Auswendiglernung bei nur geringfügigen Auswirkungen auf nachgelagerte Benchmarks.
English
Large language models can memorize and repeat their training data, causing
privacy and copyright risks. To mitigate memorization, we introduce a subtle
modification to the next-token training objective that we call the goldfish
loss. During training, a randomly sampled subset of tokens are excluded from
the loss computation. These dropped tokens are not memorized by the model,
which prevents verbatim reproduction of a complete chain of tokens from the
training set. We run extensive experiments training billion-scale Llama-2
models, both pre-trained and trained from scratch, and demonstrate significant
reductions in extractable memorization with little to no impact on downstream
benchmarks.Summary
AI-Generated Summary