ChatPaper.aiChatPaper

L'efficacité surprenante de l'inférence d'appartenance avec une simple couverture de N-grammes

The Surprising Effectiveness of Membership Inference with Simple N-Gram Coverage

August 13, 2025
papers.authors: Skyler Hallinan, Jaehun Jung, Melanie Sclar, Ximing Lu, Abhilasha Ravichander, Sahana Ramnath, Yejin Choi, Sai Praneeth Karimireddy, Niloofar Mireshghallah, Xiang Ren
cs.AI

papers.abstract

Les attaques par inférence d'appartenance constituent un outil utile pour l'utilisation équitable des modèles de langage, comme la détection d'éventuelles violations de droits d'auteur et l'audit des fuites de données. Cependant, de nombreuses attaques actuelles de pointe nécessitent un accès aux états cachés ou à la distribution de probabilité des modèles, ce qui empêche l'investigation de modèles plus largement utilisés et accessibles uniquement via des API, comme GPT-4. Dans ce travail, nous introduisons l'attaque par couverture N-Gram, une attaque par inférence d'appartenance qui repose uniquement sur les sorties textuelles du modèle cible, permettant ainsi des attaques sur des modèles totalement boîte noire. Nous exploitons l'observation que les modèles sont plus susceptibles de mémoriser et de générer ensuite des motifs textuels fréquemment observés dans leurs données d'entraînement. Plus précisément, pour prédire si un candidat est membre, l'attaque par couverture N-Gram obtient d'abord plusieurs générations du modèle conditionnées par un préfixe du candidat. Elle utilise ensuite des métriques de chevauchement n-gram pour calculer et agréger les similarités de ces sorties avec le suffixe de référence ; des similarités élevées indiquent une probable appartenance. Nous démontrons d'abord sur un ensemble diversifié de benchmarks existants que l'attaque par couverture N-Gram surpasse d'autres méthodes boîte noire tout en atteignant de manière impressionnante des performances comparables, voire supérieures, aux attaques de pointe en boîte blanche - malgré l'accès uniquement aux sorties textuelles. Fait intéressant, nous constatons que le taux de réussite de notre méthode évolue avec le budget de calcul de l'attaque - à mesure que nous augmentons le nombre de séquences générées par le modèle cible conditionnées par le préfixe, les performances de l'attaque ont tendance à s'améliorer. Après avoir vérifié la précision de notre méthode, nous l'utilisons pour étudier des modèles fermés d'OpenAI précédemment non étudiés sur plusieurs domaines. Nous constatons que les modèles plus récents, comme GPT-4o, présentent une robustesse accrue à l'inférence d'appartenance, suggérant une tendance évolutive vers une meilleure protection de la vie privée.
English
Membership inference attacks serves as useful tool for fair use of language models, such as detecting potential copyright infringement and auditing data leakage. However, many current state-of-the-art attacks require access to models' hidden states or probability distribution, which prevents investigation into more widely-used, API-access only models like GPT-4. In this work, we introduce N-Gram Coverage Attack, a membership inference attack that relies solely on text outputs from the target model, enabling attacks on completely black-box models. We leverage the observation that models are more likely to memorize and subsequently generate text patterns that were commonly observed in their training data. Specifically, to make a prediction on a candidate member, N-Gram Coverage Attack first obtains multiple model generations conditioned on a prefix of the candidate. It then uses n-gram overlap metrics to compute and aggregate the similarities of these outputs with the ground truth suffix; high similarities indicate likely membership. We first demonstrate on a diverse set of existing benchmarks that N-Gram Coverage Attack outperforms other black-box methods while also impressively achieving comparable or even better performance to state-of-the-art white-box attacks - despite having access to only text outputs. Interestingly, we find that the success rate of our method scales with the attack compute budget - as we increase the number of sequences generated from the target model conditioned on the prefix, attack performance tends to improve. Having verified the accuracy of our method, we use it to investigate previously unstudied closed OpenAI models on multiple domains. We find that more recent models, such as GPT-4o, exhibit increased robustness to membership inference, suggesting an evolving trend toward improved privacy protections.
PDF11August 15, 2025