L'efficacia sorprendente dell'inferenza di appartenenza con una semplice copertura di N-grammi
The Surprising Effectiveness of Membership Inference with Simple N-Gram Coverage
August 13, 2025
Autori: Skyler Hallinan, Jaehun Jung, Melanie Sclar, Ximing Lu, Abhilasha Ravichander, Sahana Ramnath, Yejin Choi, Sai Praneeth Karimireddy, Niloofar Mireshghallah, Xiang Ren
cs.AI
Abstract
Gli attacchi di inferenza di appartenenza rappresentano uno strumento utile per l'uso equo dei modelli linguistici, come il rilevamento di potenziali violazioni del copyright e l'audit delle perdite di dati. Tuttavia, molti degli attacchi più avanzati attualmente richiedono l'accesso agli stati nascosti o alla distribuzione di probabilità dei modelli, il che impedisce l'indagine su modelli più ampiamente utilizzati e accessibili solo tramite API, come GPT-4. In questo lavoro, introduciamo l'attacco N-Gram Coverage, un attacco di inferenza di appartenenza che si basa esclusivamente sugli output testuali del modello target, consentendo attacchi su modelli completamente black-box. Sfruttiamo l'osservazione che i modelli tendono a memorizzare e successivamente generare schemi di testo comunemente osservati nei loro dati di addestramento. Nello specifico, per fare una previsione su un candidato membro, l'attacco N-Gram Coverage ottiene prima più generazioni del modello condizionate su un prefisso del candidato. Utilizza poi metriche di sovrapposizione n-gram per calcolare e aggregare le somiglianze di questi output con il suffisso di verità; somiglianze elevate indicano una probabile appartenenza. Dimostriamo inizialmente su un insieme diversificato di benchmark esistenti che l'attacco N-Gram Coverage supera altri metodi black-box, raggiungendo in modo impressionante prestazioni comparabili o addirittura migliori rispetto agli attacchi white-box più avanzati, nonostante abbia accesso solo agli output testuali. Interessante notare che il tasso di successo del nostro metodo scala con il budget computazionale dell'attacco: all'aumentare del numero di sequenze generate dal modello target condizionate sul prefisso, le prestazioni dell'attacco tendono a migliorare. Dopo aver verificato l'accuratezza del nostro metodo, lo utilizziamo per investigare modelli chiusi di OpenAI precedentemente non studiati su più domini. Scopriamo che i modelli più recenti, come GPT-4o, mostrano una maggiore robustezza agli attacchi di inferenza di appartenenza, suggerendo una tendenza evolutiva verso migliori protezioni della privacy.
English
Membership inference attacks serves as useful tool for fair use of language
models, such as detecting potential copyright infringement and auditing data
leakage. However, many current state-of-the-art attacks require access to
models' hidden states or probability distribution, which prevents investigation
into more widely-used, API-access only models like GPT-4. In this work, we
introduce N-Gram Coverage Attack, a membership inference attack that relies
solely on text outputs from the target model, enabling attacks on completely
black-box models. We leverage the observation that models are more likely to
memorize and subsequently generate text patterns that were commonly observed in
their training data. Specifically, to make a prediction on a candidate member,
N-Gram Coverage Attack first obtains multiple model generations conditioned on
a prefix of the candidate. It then uses n-gram overlap metrics to compute and
aggregate the similarities of these outputs with the ground truth suffix; high
similarities indicate likely membership. We first demonstrate on a diverse set
of existing benchmarks that N-Gram Coverage Attack outperforms other black-box
methods while also impressively achieving comparable or even better performance
to state-of-the-art white-box attacks - despite having access to only text
outputs. Interestingly, we find that the success rate of our method scales with
the attack compute budget - as we increase the number of sequences generated
from the target model conditioned on the prefix, attack performance tends to
improve. Having verified the accuracy of our method, we use it to investigate
previously unstudied closed OpenAI models on multiple domains. We find that
more recent models, such as GPT-4o, exhibit increased robustness to membership
inference, suggesting an evolving trend toward improved privacy protections.