ChatPaper.aiChatPaper

Ataques Fuertes de Inferencia de Pertenencia en Conjuntos de Datos Masivos y Modelos de Lenguaje (Moderadamente) Grandes

Strong Membership Inference Attacks on Massive Datasets and (Moderately) Large Language Models

May 24, 2025
Autores: Jamie Hayes, Ilia Shumailov, Christopher A. Choquette-Choo, Matthew Jagielski, George Kaissis, Katherine Lee, Milad Nasr, Sahra Ghalebikesabi, Niloofar Mireshghallah, Meenatchi Sundaram Mutu Selva Annamalai, Igor Shilov, Matthieu Meeus, Yves-Alexandre de Montjoye, Franziska Boenisch, Adam Dziedzic, A. Feder Cooper
cs.AI

Resumen

Los ataques de inferencia de membresía (MIAs, por sus siglas en inglés) más avanzados suelen requerir el entrenamiento de muchos modelos de referencia, lo que dificulta escalar estos ataques a modelos de lenguaje preentrenados (LLMs) de gran escala. Como resultado, investigaciones previas han dependido de ataques más débiles que evitan entrenar modelos de referencia (por ejemplo, ataques de ajuste fino) o de ataques más fuertes aplicados a modelos y conjuntos de datos de pequeña escala. Sin embargo, se ha demostrado que los ataques más débiles son frágiles, logrando un éxito cercano a lo arbitrario, y las conclusiones de ataques fuertes en entornos simplificados no se trasladan a los LLMs actuales. Estos desafíos han planteado una pregunta importante: ¿las limitaciones observadas en trabajos previos se deben a decisiones de diseño del ataque o los MIAs son fundamentalmente ineficaces en LLMs? Abordamos esta pregunta escalando LiRA, uno de los MIAs más fuertes, a arquitecturas GPT-2 que van desde 10M hasta 1B de parámetros, entrenando modelos de referencia con más de 20B de tokens del conjunto de datos C4. Nuestros resultados avanzan en la comprensión de los MIAs en LLMs de tres maneras clave: (1) los MIAs fuertes pueden tener éxito en LLMs preentrenados; (2) su efectividad, sin embargo, sigue siendo limitada (por ejemplo, AUC<0.7) en entornos prácticos; y (3) la relación entre el éxito del MIA y las métricas de privacidad relacionadas no es tan directa como sugerían trabajos anteriores.
English
State-of-the-art membership inference attacks (MIAs) typically require training many reference models, making it difficult to scale these attacks to large pre-trained language models (LLMs). As a result, prior research has either relied on weaker attacks that avoid training reference models (e.g., fine-tuning attacks), or on stronger attacks applied to small-scale models and datasets. However, weaker attacks have been shown to be brittle - achieving close-to-arbitrary success - and insights from strong attacks in simplified settings do not translate to today's LLMs. These challenges have prompted an important question: are the limitations observed in prior work due to attack design choices, or are MIAs fundamentally ineffective on LLMs? We address this question by scaling LiRA - one of the strongest MIAs - to GPT-2 architectures ranging from 10M to 1B parameters, training reference models on over 20B tokens from the C4 dataset. Our results advance the understanding of MIAs on LLMs in three key ways: (1) strong MIAs can succeed on pre-trained LLMs; (2) their effectiveness, however, remains limited (e.g., AUC<0.7) in practical settings; and, (3) the relationship between MIA success and related privacy metrics is not as straightforward as prior work has suggested.

Summary

AI-Generated Summary

PDF72May 27, 2025