Die überraschende Wirksamkeit von Mitgliedschaftsinferenz mit einfacher N-Gram-Abdeckung
The Surprising Effectiveness of Membership Inference with Simple N-Gram Coverage
August 13, 2025
papers.authors: Skyler Hallinan, Jaehun Jung, Melanie Sclar, Ximing Lu, Abhilasha Ravichander, Sahana Ramnath, Yejin Choi, Sai Praneeth Karimireddy, Niloofar Mireshghallah, Xiang Ren
cs.AI
papers.abstract
Mitgliedschaftsinferenzangriffe dienen als nützliches Werkzeug für den fairen Einsatz von Sprachmodellen, beispielsweise zur Erkennung potenzieller Urheberrechtsverletzungen und zur Überprüfung von Datenlecks. Viele derzeitige state-of-the-art Angriffe erfordern jedoch Zugriff auf die verborgenen Zustände oder Wahrscheinlichkeitsverteilungen der Modelle, was Untersuchungen an weit verbreiteten, nur über APIs zugänglichen Modellen wie GPT-4 verhindert. In dieser Arbeit stellen wir den N-Gram Coverage Attack vor, einen Mitgliedschaftsinferenzangriff, der sich ausschließlich auf Textausgaben des Zielmodells stützt und somit Angriffe auf vollständig Black-Box-Modelle ermöglicht. Wir nutzen die Beobachtung, dass Modelle eher Textmuster speichern und anschließend generieren, die häufig in ihren Trainingsdaten vorkamen. Konkret macht der N-Gram Coverage Attack eine Vorhersage für einen Kandidaten, indem er zunächst mehrere Modellgenerationen basierend auf einem Präfix des Kandidaten erhält. Anschließend verwendet er n-gram Überlappungsmetriken, um die Ähnlichkeiten dieser Ausgaben mit dem tatsächlichen Suffix zu berechnen und zu aggregieren; hohe Ähnlichkeiten deuten auf eine wahrscheinliche Mitgliedschaft hin. Wir zeigen zunächst anhand einer Vielzahl bestehender Benchmarks, dass der N-Gram Coverage Attack andere Black-Box-Methoden übertrifft und dabei bemerkenswerterweise vergleichbare oder sogar bessere Leistungen im Vergleich zu state-of-the-art White-Box-Angriffen erzielt – obwohl er nur auf Textausgaben zugreift. Interessanterweise stellen wir fest, dass die Erfolgsrate unserer Methode mit dem Rechenbudget des Angriffs skaliert – je mehr Sequenzen wir basierend auf dem Präfix vom Zielmodell generieren, desto besser tendiert die Angriffsleistung zu werden. Nachdem wir die Genauigkeit unserer Methode überprüft haben, verwenden wir sie, um bisher unerforschte geschlossene OpenAI-Modelle in mehreren Domänen zu untersuchen. Wir stellen fest, dass neuere Modelle wie GPT-4o eine erhöhte Robustheit gegenüber Mitgliedschaftsinferenz aufweisen, was auf einen sich entwickelnden Trend hin zu verbessertem Datenschutz hindeutet.
English
Membership inference attacks serves as useful tool for fair use of language
models, such as detecting potential copyright infringement and auditing data
leakage. However, many current state-of-the-art attacks require access to
models' hidden states or probability distribution, which prevents investigation
into more widely-used, API-access only models like GPT-4. In this work, we
introduce N-Gram Coverage Attack, a membership inference attack that relies
solely on text outputs from the target model, enabling attacks on completely
black-box models. We leverage the observation that models are more likely to
memorize and subsequently generate text patterns that were commonly observed in
their training data. Specifically, to make a prediction on a candidate member,
N-Gram Coverage Attack first obtains multiple model generations conditioned on
a prefix of the candidate. It then uses n-gram overlap metrics to compute and
aggregate the similarities of these outputs with the ground truth suffix; high
similarities indicate likely membership. We first demonstrate on a diverse set
of existing benchmarks that N-Gram Coverage Attack outperforms other black-box
methods while also impressively achieving comparable or even better performance
to state-of-the-art white-box attacks - despite having access to only text
outputs. Interestingly, we find that the success rate of our method scales with
the attack compute budget - as we increase the number of sequences generated
from the target model conditioned on the prefix, attack performance tends to
improve. Having verified the accuracy of our method, we use it to investigate
previously unstudied closed OpenAI models on multiple domains. We find that
more recent models, such as GPT-4o, exhibit increased robustness to membership
inference, suggesting an evolving trend toward improved privacy protections.