Attaques robustes d'inférence d'appartenance sur des ensembles de données massifs et des modèles de langage de taille (modérément) importante
Strong Membership Inference Attacks on Massive Datasets and (Moderately) Large Language Models
May 24, 2025
Auteurs: Jamie Hayes, Ilia Shumailov, Christopher A. Choquette-Choo, Matthew Jagielski, George Kaissis, Katherine Lee, Milad Nasr, Sahra Ghalebikesabi, Niloofar Mireshghallah, Meenatchi Sundaram Mutu Selva Annamalai, Igor Shilov, Matthieu Meeus, Yves-Alexandre de Montjoye, Franziska Boenisch, Adam Dziedzic, A. Feder Cooper
cs.AI
Résumé
Les attaques d'inférence d'appartenance (MIAs) les plus avancées nécessitent généralement l'entraînement de nombreux modèles de référence, ce qui rend difficile leur mise à l'échelle pour les grands modèles de langage pré-entraînés (LLMs). Par conséquent, les recherches antérieures se sont soit appuyées sur des attaques plus faibles évitant l'entraînement de modèles de référence (par exemple, des attaques par ajustement fin), soit sur des attaques plus fortes appliquées à des modèles et des jeux de données de petite taille. Cependant, il a été démontré que les attaques plus faibles sont fragiles - atteignant un succès quasi arbitraire - et que les insights tirés des attaques fortes dans des contextes simplifiés ne se traduisent pas dans les LLMs actuels. Ces défis ont soulevé une question importante : les limitations observées dans les travaux antérieurs sont-elles dues aux choix de conception des attaques, ou les MIAs sont-elles fondamentalement inefficaces sur les LLMs ? Nous abordons cette question en mettant à l'échelle LiRA - l'une des MIAs les plus puissantes - pour des architectures GPT-2 allant de 10M à 1B de paramètres, en entraînant des modèles de référence sur plus de 20B de tokens issus du jeu de données C4. Nos résultats font progresser la compréhension des MIAs sur les LLMs de trois manières clés : (1) les MIAs fortes peuvent réussir sur les LLMs pré-entraînés ; (2) leur efficacité, cependant, reste limitée (par exemple, AUC<0.7) dans des contextes pratiques ; et (3) la relation entre le succès des MIAs et les métriques de confidentialité associées n'est pas aussi directe que les travaux antérieurs l'ont suggéré.
English
State-of-the-art membership inference attacks (MIAs) typically require
training many reference models, making it difficult to scale these attacks to
large pre-trained language models (LLMs). As a result, prior research has
either relied on weaker attacks that avoid training reference models (e.g.,
fine-tuning attacks), or on stronger attacks applied to small-scale models and
datasets. However, weaker attacks have been shown to be brittle - achieving
close-to-arbitrary success - and insights from strong attacks in simplified
settings do not translate to today's LLMs. These challenges have prompted an
important question: are the limitations observed in prior work due to attack
design choices, or are MIAs fundamentally ineffective on LLMs? We address this
question by scaling LiRA - one of the strongest MIAs - to GPT-2 architectures
ranging from 10M to 1B parameters, training reference models on over 20B tokens
from the C4 dataset. Our results advance the understanding of MIAs on LLMs in
three key ways: (1) strong MIAs can succeed on pre-trained LLMs; (2) their
effectiveness, however, remains limited (e.g., AUC<0.7) in practical settings;
and, (3) the relationship between MIA success and related privacy metrics is
not as straightforward as prior work has suggested.Summary
AI-Generated Summary