Sterke Membership Inference-aanvallen op Massale Datasets en (Matig) Grote Taalmodellen
Strong Membership Inference Attacks on Massive Datasets and (Moderately) Large Language Models
May 24, 2025
Auteurs: Jamie Hayes, Ilia Shumailov, Christopher A. Choquette-Choo, Matthew Jagielski, George Kaissis, Katherine Lee, Milad Nasr, Sahra Ghalebikesabi, Niloofar Mireshghallah, Meenatchi Sundaram Mutu Selva Annamalai, Igor Shilov, Matthieu Meeus, Yves-Alexandre de Montjoye, Franziska Boenisch, Adam Dziedzic, A. Feder Cooper
cs.AI
Samenvatting
State-of-the-art membership inference-aanvallen (MIAs) vereisen doorgaans het trainen van veel referentiemodellen, waardoor het moeilijk is om deze aanvallen op te schalen naar grote vooraf getrainde taalmmodellen (LLMs). Als gevolg hiervan heeft eerder onderzoek zich ofwel gericht op zwakkere aanvallen die het trainen van referentiemodellen vermijden (bijvoorbeeld fine-tuning-aanvallen), ofwel op sterkere aanvallen die worden toegepast op kleinschalige modellen en datasets. Zwakkere aanvallen zijn echter broos gebleken - ze behalen een succes dat bijna willekeurig is - en inzichten uit sterke aanvallen in vereenvoudigde settings zijn niet direct toepasbaar op de LLMs van vandaag. Deze uitdagingen hebben een belangrijke vraag opgeroepen: zijn de beperkingen die in eerder werk zijn waargenomen te wijten aan keuzes in de aanvalsontwerpen, of zijn MIAs fundamenteel ineffectief op LLMs? Wij gaan deze vraag te lijf door LiRA - een van de sterkste MIAs - op te schalen naar GPT-2-architecturen variërend van 10M tot 1B parameters, waarbij we referentiemodellen trainen op meer dan 20B tokens uit de C4-dataset. Onze resultaten dragen op drie belangrijke manieren bij aan het begrip van MIAs op LLMs: (1) sterke MIAs kunnen succesvol zijn op vooraf getrainde LLMs; (2) hun effectiviteit blijft echter beperkt (bijvoorbeeld AUC<0,7) in praktische settings; en (3) de relatie tussen het succes van MIAs en gerelateerde privacy-metrics is niet zo rechtlijnig als eerder werk heeft gesuggereerd.
English
State-of-the-art membership inference attacks (MIAs) typically require
training many reference models, making it difficult to scale these attacks to
large pre-trained language models (LLMs). As a result, prior research has
either relied on weaker attacks that avoid training reference models (e.g.,
fine-tuning attacks), or on stronger attacks applied to small-scale models and
datasets. However, weaker attacks have been shown to be brittle - achieving
close-to-arbitrary success - and insights from strong attacks in simplified
settings do not translate to today's LLMs. These challenges have prompted an
important question: are the limitations observed in prior work due to attack
design choices, or are MIAs fundamentally ineffective on LLMs? We address this
question by scaling LiRA - one of the strongest MIAs - to GPT-2 architectures
ranging from 10M to 1B parameters, training reference models on over 20B tokens
from the C4 dataset. Our results advance the understanding of MIAs on LLMs in
three key ways: (1) strong MIAs can succeed on pre-trained LLMs; (2) their
effectiveness, however, remains limited (e.g., AUC<0.7) in practical settings;
and, (3) the relationship between MIA success and related privacy metrics is
not as straightforward as prior work has suggested.