Maschinelle Textdetektoren sind Mitgliedschafts-Inferenzangriffe.

papers.abstract

Obwohl Mitgliedschaftsinferenzangriffe (MIAs) und die Erkennung maschinell erzeugter Texte unterschiedliche Ziele verfolgen – die Identifizierung von Trainingsdaten und synthetischen Texten – nutzen ihre Methoden oft ähnliche Signale, die auf der Wahrscheinlichkeitsverteilung eines Sprachmodells basieren. Trotz dieser gemeinsamen methodischen Grundlage wurden die beiden Aufgaben unabhängig voneinander untersucht, was zu Schlussfolgerungen führen kann, die stärkere Methoden und wertvolle Erkenntnisse, die in der jeweils anderen Aufgabe entwickelt wurden, übersehen. In dieser Arbeit untersuchen wir theoretisch und empirisch die Übertragbarkeit, d. h. wie gut eine Methode, die ursprünglich für eine Aufgabe entwickelt wurde, auf die andere Aufgabe anwendbar ist, zwischen MIAs und der Erkennung maschinell erzeugter Texte. Für unseren theoretischen Beitrag beweisen wir, dass die Metrik, die die asymptotisch höchste Leistung bei beiden Aufgaben erzielt, dieselbe ist. Wir vereinen einen großen Teil der bestehenden Literatur im Kontext dieser optimalen Metrik und stellen die Hypothese auf, dass die Genauigkeit, mit der eine gegebene Methode diese Metrik annähert, direkt mit ihrer Übertragbarkeit korreliert. Unsere umfangreichen empirischen Experimente, darunter 7 state-of-the-art MIA-Methoden und 5 state-of-the-art Erkennungsmethoden für maschinell erzeugte Texte über 13 Domänen und 10 Generatoren hinweg, zeigen eine sehr starke Rangkorrelation (rho > 0,6) in der leistungsübergreifenden Anwendung. Bemerkenswerterweise stellen wir fest, dass Binoculars, das ursprünglich für die Erkennung maschinell erzeugter Texte entwickelt wurde, auch bei MIA-Benchmarks state-of-the-art Leistung erzielt, was die praktische Bedeutung der Übertragbarkeit unterstreicht. Unsere Ergebnisse verdeutlichen die Notwendigkeit eines stärkeren Bewusstseins und einer stärkeren Zusammenarbeit zwischen den beiden Forschungsgemeinschaften. Um übergreifende Entwicklungen und faire Bewertungen zu erleichtern, führen wir MINT ein, eine einheitliche Evaluationsplattform für MIAs und die Erkennung maschinell erzeugter Texte, mit der Implementierung von 15 aktuellen Methoden aus beiden Aufgabenbereichen.

English

Although membership inference attacks (MIAs) and machine-generated text detection target different goals, identifying training samples and synthetic texts, their methods often exploit similar signals based on a language model's probability distribution. Despite this shared methodological foundation, the two tasks have been independently studied, which may lead to conclusions that overlook stronger methods and valuable insights developed in the other task. In this work, we theoretically and empirically investigate the transferability, i.e., how well a method originally developed for one task performs on the other, between MIAs and machine text detection. For our theoretical contribution, we prove that the metric that achieves the asymptotically highest performance on both tasks is the same. We unify a large proportion of the existing literature in the context of this optimal metric and hypothesize that the accuracy with which a given method approximates this metric is directly correlated with its transferability. Our large-scale empirical experiments, including 7 state-of-the-art MIA methods and 5 state-of-the-art machine text detectors across 13 domains and 10 generators, demonstrate very strong rank correlation (rho > 0.6) in cross-task performance. We notably find that Binoculars, originally designed for machine text detection, achieves state-of-the-art performance on MIA benchmarks as well, demonstrating the practical impact of the transferability. Our findings highlight the need for greater cross-task awareness and collaboration between the two research communities. To facilitate cross-task developments and fair evaluations, we introduce MINT, a unified evaluation suite for MIAs and machine-generated text detection, with implementation of 15 recent methods from both tasks.

Maschinelle Textdetektoren sind Mitgliedschafts-Inferenzangriffe.

Machine Text Detectors are Membership Inference Attacks

papers.abstract

Support