Детекторы машинного текста представляют собой атаки на вывод членства.

Аннотация

Хотя атаки на вывод членства (membership inference attacks, MIAs) и обнаружение машинно-сгенерированного текста преследуют разные цели — идентификацию обучающих выборок и синтетических текстов, — их методы часто используют схожие сигналы, основанные на вероятностном распределении языковой модели. Несмотря на эту общую методологическую основу, две задачи изучались независимо, что может приводить к выводам, упускающим более сильные методы и ценные инсайты, разработанные в рамках другой задачи. В данной работе мы теоретически и эмпирически исследуем переносимость, то есть насколько хорошо метод, изначально разработанный для одной задачи, работает на другой, между MIAs и обнаружением машинного текста. В качестве теоретического вклада мы доказываем, что метрика, достигающая асимптотически наивысшей производительности в обеих задачах, является одинаковой. Мы объединяем значительную часть существующей литературы в контексте этой оптимальной метрики и выдвигаем гипотезу, что точность, с которой данный метод аппроксимирует эту метрику, напрямую коррелирует с его переносимостью. Наши масштабные эмпирические эксперименты, включающие 7 современных методов MIAs и 5 современных детекторов машинного текста в 13 доменах и с 10 генераторами, демонстрируют очень сильную ранговую корреляцию (rho > 0,6) в кросс-задачной производительности. Мы особенно отмечаем, что Binoculars, изначально разработанный для обнаружения машинного текста, достигает современных результатов на бенчмарках MIAs, что демонстрирует практическое влияние переносимости. Наши результаты подчеркивают необходимость большего кросс-задачного осознания и сотрудничества между двумя исследовательскими сообществами. Для облегчения кросс-задачных разработок и объективных оценок мы представляем MINT, унифицированный набор для оценки MIAs и обнаружения машинно-сгенерированного текста, с реализацией 15 современных методов из обеих задач.

English

Although membership inference attacks (MIAs) and machine-generated text detection target different goals, identifying training samples and synthetic texts, their methods often exploit similar signals based on a language model's probability distribution. Despite this shared methodological foundation, the two tasks have been independently studied, which may lead to conclusions that overlook stronger methods and valuable insights developed in the other task. In this work, we theoretically and empirically investigate the transferability, i.e., how well a method originally developed for one task performs on the other, between MIAs and machine text detection. For our theoretical contribution, we prove that the metric that achieves the asymptotically highest performance on both tasks is the same. We unify a large proportion of the existing literature in the context of this optimal metric and hypothesize that the accuracy with which a given method approximates this metric is directly correlated with its transferability. Our large-scale empirical experiments, including 7 state-of-the-art MIA methods and 5 state-of-the-art machine text detectors across 13 domains and 10 generators, demonstrate very strong rank correlation (rho > 0.6) in cross-task performance. We notably find that Binoculars, originally designed for machine text detection, achieves state-of-the-art performance on MIA benchmarks as well, demonstrating the practical impact of the transferability. Our findings highlight the need for greater cross-task awareness and collaboration between the two research communities. To facilitate cross-task developments and fair evaluations, we introduce MINT, a unified evaluation suite for MIAs and machine-generated text detection, with implementation of 15 recent methods from both tasks.

Детекторы машинного текста представляют собой атаки на вывод членства.

Machine Text Detectors are Membership Inference Attacks

Аннотация

Support