Attacchi di Inferenza di Appartenenza Forti su Dataset Massivi e Modelli Linguistici di (Moderata) Grande Dimensione
Strong Membership Inference Attacks on Massive Datasets and (Moderately) Large Language Models
May 24, 2025
Autori: Jamie Hayes, Ilia Shumailov, Christopher A. Choquette-Choo, Matthew Jagielski, George Kaissis, Katherine Lee, Milad Nasr, Sahra Ghalebikesabi, Niloofar Mireshghallah, Meenatchi Sundaram Mutu Selva Annamalai, Igor Shilov, Matthieu Meeus, Yves-Alexandre de Montjoye, Franziska Boenisch, Adam Dziedzic, A. Feder Cooper
cs.AI
Abstract
Gli attacchi di inferenza di appartenenza (MIAs) allo stato dell'arte richiedono tipicamente l'addestramento di molti modelli di riferimento, rendendo difficile scalare questi attacchi a grandi modelli linguistici pre-addestrati (LLMs). Di conseguenza, le ricerche precedenti si sono basate su attacchi più deboli che evitano di addestrare modelli di riferimento (ad esempio, attacchi di fine-tuning) o su attacchi più forti applicati a modelli e dataset di piccole dimensioni. Tuttavia, è stato dimostrato che gli attacchi più deboli sono fragili, ottenendo un successo quasi arbitrario, e le intuizioni provenienti da attacchi forti in contesti semplificati non si traducono negli LLM odierni. Queste sfide hanno sollevato una domanda importante: le limitazioni osservate nei lavori precedenti sono dovute a scelte progettuali degli attacchi o i MIAs sono fondamentalmente inefficaci sugli LLM? Affrontiamo questa questione scalando LiRA, uno dei MIAs più potenti, alle architetture GPT-2 che vanno da 10M a 1B di parametri, addestrando modelli di riferimento su oltre 20B di token del dataset C4. I nostri risultati avanzano la comprensione dei MIAs sugli LLM in tre modi chiave: (1) i MIAs forti possono avere successo sugli LLM pre-addestrati; (2) la loro efficacia, tuttavia, rimane limitata (ad esempio, AUC<0.7) in contesti pratici; e (3) la relazione tra il successo dei MIAs e le metriche di privacy correlate non è così diretta come suggerito dai lavori precedenti.
English
State-of-the-art membership inference attacks (MIAs) typically require
training many reference models, making it difficult to scale these attacks to
large pre-trained language models (LLMs). As a result, prior research has
either relied on weaker attacks that avoid training reference models (e.g.,
fine-tuning attacks), or on stronger attacks applied to small-scale models and
datasets. However, weaker attacks have been shown to be brittle - achieving
close-to-arbitrary success - and insights from strong attacks in simplified
settings do not translate to today's LLMs. These challenges have prompted an
important question: are the limitations observed in prior work due to attack
design choices, or are MIAs fundamentally ineffective on LLMs? We address this
question by scaling LiRA - one of the strongest MIAs - to GPT-2 architectures
ranging from 10M to 1B parameters, training reference models on over 20B tokens
from the C4 dataset. Our results advance the understanding of MIAs on LLMs in
three key ways: (1) strong MIAs can succeed on pre-trained LLMs; (2) their
effectiveness, however, remains limited (e.g., AUC<0.7) in practical settings;
and, (3) the relationship between MIA success and related privacy metrics is
not as straightforward as prior work has suggested.