La Sorprendente Efectividad de la Inferencia de Pertenencia con Cobertura Simple de N-Gramas
The Surprising Effectiveness of Membership Inference with Simple N-Gram Coverage
August 13, 2025
Autores: Skyler Hallinan, Jaehun Jung, Melanie Sclar, Ximing Lu, Abhilasha Ravichander, Sahana Ramnath, Yejin Choi, Sai Praneeth Karimireddy, Niloofar Mireshghallah, Xiang Ren
cs.AI
Resumen
Los ataques de inferencia de membresía sirven como una herramienta útil para el uso justo de modelos de lenguaje, como la detección de posibles infracciones de derechos de autor y la auditoría de fugas de datos. Sin embargo, muchos de los ataques más avanzados actualmente requieren acceso a los estados ocultos o a la distribución de probabilidad de los modelos, lo que impide la investigación en modelos de acceso exclusivo a través de API, como GPT-4. En este trabajo, presentamos el Ataque de Cobertura N-Gram, un ataque de inferencia de membresía que se basa únicamente en las salidas de texto del modelo objetivo, permitiendo ataques en modelos completamente de caja negra. Aprovechamos la observación de que los modelos tienen más probabilidad de memorizar y, posteriormente, generar patrones de texto que se observaron comúnmente en sus datos de entrenamiento. Específicamente, para hacer una predicción sobre un candidato a miembro, el Ataque de Cobertura N-Gram primero obtiene múltiples generaciones del modelo condicionadas a un prefijo del candidato. Luego, utiliza métricas de superposición de n-gramas para calcular y agregar las similitudes de estas salidas con el sufijo de la verdad fundamental; las altas similitudes indican una probable membresía. Primero demostramos en un conjunto diverso de puntos de referencia existentes que el Ataque de Cobertura N-Gram supera a otros métodos de caja negra, mientras que también logra un rendimiento comparable o incluso mejor que los ataques de caja blanca más avanzados, a pesar de tener acceso solo a las salidas de texto. Curiosamente, encontramos que la tasa de éxito de nuestro método escala con el presupuesto de cómputo del ataque: a medida que aumentamos el número de secuencias generadas por el modelo objetivo condicionadas al prefijo, el rendimiento del ataque tiende a mejorar. Habiendo verificado la precisión de nuestro método, lo utilizamos para investigar modelos cerrados de OpenAI previamente no estudiados en múltiples dominios. Encontramos que modelos más recientes, como GPT-4o, exhiben una mayor robustez frente a la inferencia de membresía, sugiriendo una tendencia evolutiva hacia mejores protecciones de privacidad.
English
Membership inference attacks serves as useful tool for fair use of language
models, such as detecting potential copyright infringement and auditing data
leakage. However, many current state-of-the-art attacks require access to
models' hidden states or probability distribution, which prevents investigation
into more widely-used, API-access only models like GPT-4. In this work, we
introduce N-Gram Coverage Attack, a membership inference attack that relies
solely on text outputs from the target model, enabling attacks on completely
black-box models. We leverage the observation that models are more likely to
memorize and subsequently generate text patterns that were commonly observed in
their training data. Specifically, to make a prediction on a candidate member,
N-Gram Coverage Attack first obtains multiple model generations conditioned on
a prefix of the candidate. It then uses n-gram overlap metrics to compute and
aggregate the similarities of these outputs with the ground truth suffix; high
similarities indicate likely membership. We first demonstrate on a diverse set
of existing benchmarks that N-Gram Coverage Attack outperforms other black-box
methods while also impressively achieving comparable or even better performance
to state-of-the-art white-box attacks - despite having access to only text
outputs. Interestingly, we find that the success rate of our method scales with
the attack compute budget - as we increase the number of sequences generated
from the target model conditioned on the prefix, attack performance tends to
improve. Having verified the accuracy of our method, we use it to investigate
previously unstudied closed OpenAI models on multiple domains. We find that
more recent models, such as GPT-4o, exhibit increased robustness to membership
inference, suggesting an evolving trend toward improved privacy protections.