A Eficácia Surpreendente da Inferência de Pertencimento com Cobertura Simples de N-Gramas
The Surprising Effectiveness of Membership Inference with Simple N-Gram Coverage
August 13, 2025
Autores: Skyler Hallinan, Jaehun Jung, Melanie Sclar, Ximing Lu, Abhilasha Ravichander, Sahana Ramnath, Yejin Choi, Sai Praneeth Karimireddy, Niloofar Mireshghallah, Xiang Ren
cs.AI
Resumo
Os ataques de inferência de associação servem como uma ferramenta útil para o uso justo de modelos de linguagem, como a detecção de possíveis violações de direitos autorais e a auditoria de vazamentos de dados. No entanto, muitos dos ataques mais avançados atualmente exigem acesso aos estados ocultos ou à distribuição de probabilidade dos modelos, o que impede a investigação de modelos mais amplamente utilizados e acessíveis apenas por API, como o GPT-4. Neste trabalho, introduzimos o Ataque de Cobertura N-Gram, um ataque de inferência de associação que depende exclusivamente das saídas de texto do modelo alvo, permitindo ataques a modelos completamente em caixa-preta. Aproveitamos a observação de que os modelos têm maior probabilidade de memorizar e, subsequentemente, gerar padrões de texto que foram comumente observados em seus dados de treinamento. Especificamente, para fazer uma previsão sobre um candidato a membro, o Ataque de Cobertura N-Gram primeiro obtém várias gerações do modelo condicionadas a um prefixo do candidato. Em seguida, usa métricas de sobreposição de n-gramas para calcular e agregar as similaridades dessas saídas com o sufixo verdadeiro; altas similaridades indicam provável associação. Primeiro, demonstramos em um conjunto diversificado de benchmarks existentes que o Ataque de Cobertura N-Gram supera outros métodos de caixa-preta, ao mesmo tempo em que impressionantemente alcança desempenho comparável ou até melhor do que os ataques mais avançados de caixa-branca - apesar de ter acesso apenas a saídas de texto. Curiosamente, descobrimos que a taxa de sucesso do nosso método escala com o orçamento de computação do ataque - à medida que aumentamos o número de sequências geradas pelo modelo alvo condicionadas ao prefixo, o desempenho do ataque tende a melhorar. Tendo verificado a precisão do nosso método, usamos ele para investigar modelos fechados da OpenAI previamente não estudados em múltiplos domínios. Descobrimos que modelos mais recentes, como o GPT-4o, exibem maior robustez à inferência de associação, sugerindo uma tendência evolutiva em direção a proteções de privacidade aprimoradas.
English
Membership inference attacks serves as useful tool for fair use of language
models, such as detecting potential copyright infringement and auditing data
leakage. However, many current state-of-the-art attacks require access to
models' hidden states or probability distribution, which prevents investigation
into more widely-used, API-access only models like GPT-4. In this work, we
introduce N-Gram Coverage Attack, a membership inference attack that relies
solely on text outputs from the target model, enabling attacks on completely
black-box models. We leverage the observation that models are more likely to
memorize and subsequently generate text patterns that were commonly observed in
their training data. Specifically, to make a prediction on a candidate member,
N-Gram Coverage Attack first obtains multiple model generations conditioned on
a prefix of the candidate. It then uses n-gram overlap metrics to compute and
aggregate the similarities of these outputs with the ground truth suffix; high
similarities indicate likely membership. We first demonstrate on a diverse set
of existing benchmarks that N-Gram Coverage Attack outperforms other black-box
methods while also impressively achieving comparable or even better performance
to state-of-the-art white-box attacks - despite having access to only text
outputs. Interestingly, we find that the success rate of our method scales with
the attack compute budget - as we increase the number of sequences generated
from the target model conditioned on the prefix, attack performance tends to
improve. Having verified the accuracy of our method, we use it to investigate
previously unstudied closed OpenAI models on multiple domains. We find that
more recent models, such as GPT-4o, exhibit increased robustness to membership
inference, suggesting an evolving trend toward improved privacy protections.