Удивительная эффективность вывода членства с использованием простого покрытия N-грамм
The Surprising Effectiveness of Membership Inference with Simple N-Gram Coverage
August 13, 2025
Авторы: Skyler Hallinan, Jaehun Jung, Melanie Sclar, Ximing Lu, Abhilasha Ravichander, Sahana Ramnath, Yejin Choi, Sai Praneeth Karimireddy, Niloofar Mireshghallah, Xiang Ren
cs.AI
Аннотация
Атаки на вывод членства служат полезным инструментом для справедливого использования языковых моделей, например, для выявления потенциального нарушения авторских прав и аудита утечек данных. Однако многие современные передовые атаки требуют доступа к скрытым состояниям моделей или их вероятностным распределениям, что затрудняет исследование более широко используемых моделей, доступных только через API, таких как GPT-4. В данной работе мы представляем N-Gram Coverage Attack — атаку на вывод членства, которая полагается исключительно на текстовые выходы целевой модели, что позволяет атаковать полностью черные ящики. Мы используем наблюдение, что модели с большей вероятностью запоминают и затем генерируют текстовые паттерны, которые часто встречались в их обучающих данных. Конкретно, для предсказания принадлежности кандидата, N-Gram Coverage Attack сначала получает несколько генераций модели, основанных на префиксе кандидата. Затем с помощью метрик перекрытия n-грамм вычисляется и агрегируется сходство этих выходов с истинным суффиксом; высокое сходство указывает на вероятную принадлежность. Мы сначала демонстрируем на разнообразных существующих бенчмарках, что N-Gram Coverage Attack превосходит другие методы для черных ящиков, а также впечатляюще достигает сопоставимой или даже лучшей производительности по сравнению с передовыми атаками для белых ящиков — несмотря на доступ только к текстовым выходам. Интересно, что мы обнаруживаем, что успешность нашего метода масштабируется с вычислительным бюджетом атаки — по мере увеличения количества последовательностей, сгенерированных целевой моделью на основе префикса, производительность атаки имеет тенденцию улучшаться. Убедившись в точности нашего метода, мы используем его для исследования ранее не изученных закрытых моделей OpenAI в различных областях. Мы обнаруживаем, что более новые модели, такие как GPT-4o, демонстрируют повышенную устойчивость к атакам на вывод членства, что указывает на эволюцию в сторону улучшения защиты конфиденциальности.
English
Membership inference attacks serves as useful tool for fair use of language
models, such as detecting potential copyright infringement and auditing data
leakage. However, many current state-of-the-art attacks require access to
models' hidden states or probability distribution, which prevents investigation
into more widely-used, API-access only models like GPT-4. In this work, we
introduce N-Gram Coverage Attack, a membership inference attack that relies
solely on text outputs from the target model, enabling attacks on completely
black-box models. We leverage the observation that models are more likely to
memorize and subsequently generate text patterns that were commonly observed in
their training data. Specifically, to make a prediction on a candidate member,
N-Gram Coverage Attack first obtains multiple model generations conditioned on
a prefix of the candidate. It then uses n-gram overlap metrics to compute and
aggregate the similarities of these outputs with the ground truth suffix; high
similarities indicate likely membership. We first demonstrate on a diverse set
of existing benchmarks that N-Gram Coverage Attack outperforms other black-box
methods while also impressively achieving comparable or even better performance
to state-of-the-art white-box attacks - despite having access to only text
outputs. Interestingly, we find that the success rate of our method scales with
the attack compute budget - as we increase the number of sequences generated
from the target model conditioned on the prefix, attack performance tends to
improve. Having verified the accuracy of our method, we use it to investigate
previously unstudied closed OpenAI models on multiple domains. We find that
more recent models, such as GPT-4o, exhibit increased robustness to membership
inference, suggesting an evolving trend toward improved privacy protections.