Starke Membership-Inference-Angriffe auf umfangreiche Datensätze und (mäßig) große Sprachmodelle
Strong Membership Inference Attacks on Massive Datasets and (Moderately) Large Language Models
May 24, 2025
Autoren: Jamie Hayes, Ilia Shumailov, Christopher A. Choquette-Choo, Matthew Jagielski, George Kaissis, Katherine Lee, Milad Nasr, Sahra Ghalebikesabi, Niloofar Mireshghallah, Meenatchi Sundaram Mutu Selva Annamalai, Igor Shilov, Matthieu Meeus, Yves-Alexandre de Montjoye, Franziska Boenisch, Adam Dziedzic, A. Feder Cooper
cs.AI
Zusammenfassung
State-of-the-art-Mitgliedschafts-Inferenzangriffe (MIAs) erfordern typischerweise das Training vieler Referenzmodelle, was es schwierig macht, diese Angriffe auf große vortrainierte Sprachmodelle (LLMs) zu skalieren. Infolgedessen hat sich die bisherige Forschung entweder auf schwächere Angriffe gestützt, die das Training von Referenzmodellen vermeiden (z. B. Fine-Tuning-Angriffe), oder auf stärkere Angriffe, die auf kleinere Modelle und Datensätze angewendet wurden. Schwächere Angriffe haben sich jedoch als brüchig erwiesen – sie erreichen nahezu willkürliche Erfolgsraten – und Erkenntnisse aus starken Angriffen in vereinfachten Settings lassen sich nicht auf die heutigen LLMs übertragen. Diese Herausforderungen haben eine wichtige Frage aufgeworfen: Sind die in früheren Arbeiten beobachteten Einschränkungen auf die Angriffsdesign-Entscheidungen zurückzuführen, oder sind MIAs grundsätzlich bei LLMs unwirksam? Wir gehen dieser Frage nach, indem wir LiRA – einen der stärksten MIAs – auf GPT-2-Architekturen mit 10M bis 1B Parametern skalieren und Referenzmodelle auf über 20B Tokens aus dem C4-Datensatz trainieren. Unsere Ergebnisse erweitern das Verständnis von MIAs auf LLMs in drei entscheidenden Aspekten: (1) starke MIAs können bei vortrainierten LLMs erfolgreich sein; (2) ihre Wirksamkeit bleibt jedoch in praktischen Anwendungen begrenzt (z. B. AUC<0,7); und (3) die Beziehung zwischen dem Erfolg von MIAs und verwandten Datenschutzmetriken ist nicht so eindeutig, wie frühere Arbeiten nahegelegt haben.
English
State-of-the-art membership inference attacks (MIAs) typically require
training many reference models, making it difficult to scale these attacks to
large pre-trained language models (LLMs). As a result, prior research has
either relied on weaker attacks that avoid training reference models (e.g.,
fine-tuning attacks), or on stronger attacks applied to small-scale models and
datasets. However, weaker attacks have been shown to be brittle - achieving
close-to-arbitrary success - and insights from strong attacks in simplified
settings do not translate to today's LLMs. These challenges have prompted an
important question: are the limitations observed in prior work due to attack
design choices, or are MIAs fundamentally ineffective on LLMs? We address this
question by scaling LiRA - one of the strongest MIAs - to GPT-2 architectures
ranging from 10M to 1B parameters, training reference models on over 20B tokens
from the C4 dataset. Our results advance the understanding of MIAs on LLMs in
three key ways: (1) strong MIAs can succeed on pre-trained LLMs; (2) their
effectiveness, however, remains limited (e.g., AUC<0.7) in practical settings;
and, (3) the relationship between MIA success and related privacy metrics is
not as straightforward as prior work has suggested.Summary
AI-Generated Summary