Мощные атаки на вывод членства в больших наборах данных и (умеренно) крупных языковых моделях
Strong Membership Inference Attacks on Massive Datasets and (Moderately) Large Language Models
May 24, 2025
Авторы: Jamie Hayes, Ilia Shumailov, Christopher A. Choquette-Choo, Matthew Jagielski, George Kaissis, Katherine Lee, Milad Nasr, Sahra Ghalebikesabi, Niloofar Mireshghallah, Meenatchi Sundaram Mutu Selva Annamalai, Igor Shilov, Matthieu Meeus, Yves-Alexandre de Montjoye, Franziska Boenisch, Adam Dziedzic, A. Feder Cooper
cs.AI
Аннотация
Современные атаки на вывод членства (membership inference attacks, MIAs) обычно требуют обучения множества референсных моделей, что затрудняет масштабирование этих атак на крупные предобученные языковые модели (LLMs). В результате предыдущие исследования либо полагались на более слабые атаки, избегающие обучения референсных моделей (например, атаки с дообучением), либо на более сильные атаки, применяемые к моделям и наборам данных малого масштаба. Однако было показано, что более слабые атаки являются ненадежными — достигая успеха, близкого к случайному, — а выводы из сильных атак в упрощенных условиях не переносятся на современные LLMs. Эти проблемы подняли важный вопрос: связаны ли ограничения, наблюдаемые в предыдущих работах, с выбором дизайна атак, или MIAs принципиально неэффективны на LLMs? Мы исследуем этот вопрос, масштабируя LiRA — одну из самых сильных MIAs — на архитектуры GPT-2 с количеством параметров от 10 млн до 1 млрд, обучая референсные модели на более чем 20 млрд токенов из набора данных C4. Наши результаты углубляют понимание MIAs на LLMs в трех ключевых аспектах: (1) сильные MIAs могут быть успешными на предобученных LLMs; (2) однако их эффективность остается ограниченной (например, AUC<0.7) в практических условиях; и (3) связь между успехом MIAs и связанными метриками приватности не так прямолинейна, как предполагалось в предыдущих работах.
English
State-of-the-art membership inference attacks (MIAs) typically require
training many reference models, making it difficult to scale these attacks to
large pre-trained language models (LLMs). As a result, prior research has
either relied on weaker attacks that avoid training reference models (e.g.,
fine-tuning attacks), or on stronger attacks applied to small-scale models and
datasets. However, weaker attacks have been shown to be brittle - achieving
close-to-arbitrary success - and insights from strong attacks in simplified
settings do not translate to today's LLMs. These challenges have prompted an
important question: are the limitations observed in prior work due to attack
design choices, or are MIAs fundamentally ineffective on LLMs? We address this
question by scaling LiRA - one of the strongest MIAs - to GPT-2 architectures
ranging from 10M to 1B parameters, training reference models on over 20B tokens
from the C4 dataset. Our results advance the understanding of MIAs on LLMs in
three key ways: (1) strong MIAs can succeed on pre-trained LLMs; (2) their
effectiveness, however, remains limited (e.g., AUC<0.7) in practical settings;
and, (3) the relationship between MIA success and related privacy metrics is
not as straightforward as prior work has suggested.Summary
AI-Generated Summary