Sterke Membership Inference-aanvallen op Massale Datasets en (Matig) Grote Taalmodellen

Samenvatting

State-of-the-art membership inference-aanvallen (MIAs) vereisen doorgaans het trainen van veel referentiemodellen, waardoor het moeilijk is om deze aanvallen op te schalen naar grote vooraf getrainde taalmmodellen (LLMs). Als gevolg hiervan heeft eerder onderzoek zich ofwel gericht op zwakkere aanvallen die het trainen van referentiemodellen vermijden (bijvoorbeeld fine-tuning-aanvallen), ofwel op sterkere aanvallen die worden toegepast op kleinschalige modellen en datasets. Zwakkere aanvallen zijn echter broos gebleken - ze behalen een succes dat bijna willekeurig is - en inzichten uit sterke aanvallen in vereenvoudigde settings zijn niet direct toepasbaar op de LLMs van vandaag. Deze uitdagingen hebben een belangrijke vraag opgeroepen: zijn de beperkingen die in eerder werk zijn waargenomen te wijten aan keuzes in de aanvalsontwerpen, of zijn MIAs fundamenteel ineffectief op LLMs? Wij gaan deze vraag te lijf door LiRA - een van de sterkste MIAs - op te schalen naar GPT-2-architecturen variërend van 10M tot 1B parameters, waarbij we referentiemodellen trainen op meer dan 20B tokens uit de C4-dataset. Onze resultaten dragen op drie belangrijke manieren bij aan het begrip van MIAs op LLMs: (1) sterke MIAs kunnen succesvol zijn op vooraf getrainde LLMs; (2) hun effectiviteit blijft echter beperkt (bijvoorbeeld AUC<0,7) in praktische settings; en (3) de relatie tussen het succes van MIAs en gerelateerde privacy-metrics is niet zo rechtlijnig als eerder werk heeft gesuggereerd.

English

State-of-the-art membership inference attacks (MIAs) typically require training many reference models, making it difficult to scale these attacks to large pre-trained language models (LLMs). As a result, prior research has either relied on weaker attacks that avoid training reference models (e.g., fine-tuning attacks), or on stronger attacks applied to small-scale models and datasets. However, weaker attacks have been shown to be brittle - achieving close-to-arbitrary success - and insights from strong attacks in simplified settings do not translate to today's LLMs. These challenges have prompted an important question: are the limitations observed in prior work due to attack design choices, or are MIAs fundamentally ineffective on LLMs? We address this question by scaling LiRA - one of the strongest MIAs - to GPT-2 architectures ranging from 10M to 1B parameters, training reference models on over 20B tokens from the C4 dataset. Our results advance the understanding of MIAs on LLMs in three key ways: (1) strong MIAs can succeed on pre-trained LLMs; (2) their effectiveness, however, remains limited (e.g., AUC<0.7) in practical settings; and, (3) the relationship between MIA success and related privacy metrics is not as straightforward as prior work has suggested.

Sterke Membership Inference-aanvallen op Massale Datasets en (Matig) Grote Taalmodellen

Strong Membership Inference Attacks on Massive Datasets and (Moderately) Large Language Models

Samenvatting

Support