ChatPaper.aiChatPaper

Ataques Fortes de Inferência de Associação em Conjuntos de Dados Massivos e Modelos de Linguagem (Moderadamente) Grandes

Strong Membership Inference Attacks on Massive Datasets and (Moderately) Large Language Models

May 24, 2025
Autores: Jamie Hayes, Ilia Shumailov, Christopher A. Choquette-Choo, Matthew Jagielski, George Kaissis, Katherine Lee, Milad Nasr, Sahra Ghalebikesabi, Niloofar Mireshghallah, Meenatchi Sundaram Mutu Selva Annamalai, Igor Shilov, Matthieu Meeus, Yves-Alexandre de Montjoye, Franziska Boenisch, Adam Dziedzic, A. Feder Cooper
cs.AI

Resumo

Ataques de inferência de associação (MIAs) de última geração normalmente exigem o treinamento de muitos modelos de referência, o que dificulta a escalabilidade desses ataques para grandes modelos de linguagem pré-treinados (LLMs). Como resultado, pesquisas anteriores ou se basearam em ataques mais fracos que evitam o treinamento de modelos de referência (por exemplo, ataques de ajuste fino) ou em ataques mais fortes aplicados a modelos e conjuntos de dados em pequena escala. No entanto, ataques mais fracos têm se mostrado frágeis - alcançando sucesso quase arbitrário - e insights de ataques fortes em cenários simplificados não se traduzem para os LLMs atuais. Esses desafios levantaram uma questão importante: as limitações observadas em trabalhos anteriores são devidas a escolhas de design de ataque ou os MIAs são fundamentalmente ineficazes em LLMs? Abordamos essa questão escalando o LiRA - um dos MIAs mais fortes - para arquiteturas GPT-2 variando de 10M a 1B de parâmetros, treinando modelos de referência em mais de 20B de tokens do conjunto de dados C4. Nossos resultados avançam a compreensão dos MIAs em LLMs de três maneiras principais: (1) MIAs fortes podem ter sucesso em LLMs pré-treinados; (2) sua eficácia, no entanto, permanece limitada (por exemplo, AUC<0,7) em cenários práticos; e (3) a relação entre o sucesso do MIA e métricas de privacidade relacionadas não é tão direta quanto trabalhos anteriores sugeriram.
English
State-of-the-art membership inference attacks (MIAs) typically require training many reference models, making it difficult to scale these attacks to large pre-trained language models (LLMs). As a result, prior research has either relied on weaker attacks that avoid training reference models (e.g., fine-tuning attacks), or on stronger attacks applied to small-scale models and datasets. However, weaker attacks have been shown to be brittle - achieving close-to-arbitrary success - and insights from strong attacks in simplified settings do not translate to today's LLMs. These challenges have prompted an important question: are the limitations observed in prior work due to attack design choices, or are MIAs fundamentally ineffective on LLMs? We address this question by scaling LiRA - one of the strongest MIAs - to GPT-2 architectures ranging from 10M to 1B parameters, training reference models on over 20B tokens from the C4 dataset. Our results advance the understanding of MIAs on LLMs in three key ways: (1) strong MIAs can succeed on pre-trained LLMs; (2) their effectiveness, however, remains limited (e.g., AUC<0.7) in practical settings; and, (3) the relationship between MIA success and related privacy metrics is not as straightforward as prior work has suggested.
PDF72December 16, 2025