ChatPaper.aiChatPaper

De verrassende effectiviteit van lidmaatschapsinferentie met eenvoudige N-gram-dekking

The Surprising Effectiveness of Membership Inference with Simple N-Gram Coverage

August 13, 2025
Auteurs: Skyler Hallinan, Jaehun Jung, Melanie Sclar, Ximing Lu, Abhilasha Ravichander, Sahana Ramnath, Yejin Choi, Sai Praneeth Karimireddy, Niloofar Mireshghallah, Xiang Ren
cs.AI

Samenvatting

Membership inference-aanvallen dienen als een nuttig instrument voor het eerlijke gebruik van taalmodellen, zoals het detecteren van mogelijke inbreuk op auteursrechten en het auditen van datalekken. Veel van de huidige state-of-the-art aanvallen vereisen echter toegang tot de verborgen toestanden of waarschijnlijkheidsverdeling van modellen, wat onderzoek naar meer algemeen gebruikte, API-only modellen zoals GPT-4 belemmert. In dit werk introduceren we de N-Gram Coverage Attack, een membership inference-aanval die uitsluitend vertrouwt op tekstuitvoeren van het doelmodel, waardoor aanvallen op volledig black-box modellen mogelijk worden. We maken gebruik van de observatie dat modellen meer geneigd zijn om tekstpatronen die vaak in hun trainingsdata voorkomen te onthouden en vervolgens te genereren. Specifiek maakt de N-Gram Coverage Attack, om een voorspelling te doen over een kandidaat-lid, eerst meerdere modelgeneraties aan die gebaseerd zijn op een prefix van de kandidaat. Vervolgens gebruikt het n-gram overlap-metrics om de overeenkomsten van deze uitvoeren met het werkelijke suffix te berekenen en te aggregeren; hoge overeenkomsten duiden op waarschijnlijk lidmaatschap. We demonstreren eerst op een diverse set van bestaande benchmarks dat de N-Gram Coverage Attack andere black-box methoden overtreft, terwijl het ook indrukwekkend vergelijkbare of zelfs betere prestaties behaalt in vergelijking met state-of-the-art white-box aanvallen - ondanks dat het alleen toegang heeft tot tekstuitvoeren. Interessant genoeg vinden we dat het succespercentage van onze methode schaalt met het aanvalsrekenbudget - naarmate we het aantal sequenties dat gegenereerd wordt uit het doelmodel, gebaseerd op de prefix, verhogen, neigt de aanvalsprestatie te verbeteren. Nadat we de nauwkeurigheid van onze methode hebben geverifieerd, gebruiken we deze om voorheen niet-onderzochte gesloten OpenAI-modellen in meerdere domeinen te onderzoeken. We vinden dat recentere modellen, zoals GPT-4o, een verhoogde robuustheid tegen membership inference vertonen, wat een evoluerende trend suggereert naar verbeterde privacybeschermingen.
English
Membership inference attacks serves as useful tool for fair use of language models, such as detecting potential copyright infringement and auditing data leakage. However, many current state-of-the-art attacks require access to models' hidden states or probability distribution, which prevents investigation into more widely-used, API-access only models like GPT-4. In this work, we introduce N-Gram Coverage Attack, a membership inference attack that relies solely on text outputs from the target model, enabling attacks on completely black-box models. We leverage the observation that models are more likely to memorize and subsequently generate text patterns that were commonly observed in their training data. Specifically, to make a prediction on a candidate member, N-Gram Coverage Attack first obtains multiple model generations conditioned on a prefix of the candidate. It then uses n-gram overlap metrics to compute and aggregate the similarities of these outputs with the ground truth suffix; high similarities indicate likely membership. We first demonstrate on a diverse set of existing benchmarks that N-Gram Coverage Attack outperforms other black-box methods while also impressively achieving comparable or even better performance to state-of-the-art white-box attacks - despite having access to only text outputs. Interestingly, we find that the success rate of our method scales with the attack compute budget - as we increase the number of sequences generated from the target model conditioned on the prefix, attack performance tends to improve. Having verified the accuracy of our method, we use it to investigate previously unstudied closed OpenAI models on multiple domains. We find that more recent models, such as GPT-4o, exhibit increased robustness to membership inference, suggesting an evolving trend toward improved privacy protections.
PDF21August 15, 2025