Maschinelle Textdetektoren sind Mitgliedschafts-Inferenzangriffe.
Machine Text Detectors are Membership Inference Attacks
October 22, 2025
papers.authors: Ryuto Koike, Liam Dugan, Masahiro Kaneko, Chris Callison-Burch, Naoaki Okazaki
cs.AI
papers.abstract
Obwohl Mitgliedschaftsinferenzangriffe (MIAs) und die Erkennung maschinell erzeugter Texte unterschiedliche Ziele verfolgen – die Identifizierung von Trainingsdaten und synthetischen Texten – nutzen ihre Methoden oft ähnliche Signale, die auf der Wahrscheinlichkeitsverteilung eines Sprachmodells basieren. Trotz dieser gemeinsamen methodischen Grundlage wurden die beiden Aufgaben unabhängig voneinander untersucht, was zu Schlussfolgerungen führen kann, die stärkere Methoden und wertvolle Erkenntnisse, die in der jeweils anderen Aufgabe entwickelt wurden, übersehen. In dieser Arbeit untersuchen wir theoretisch und empirisch die Übertragbarkeit, d. h. wie gut eine Methode, die ursprünglich für eine Aufgabe entwickelt wurde, auf die andere Aufgabe anwendbar ist, zwischen MIAs und der Erkennung maschinell erzeugter Texte. Für unseren theoretischen Beitrag beweisen wir, dass die Metrik, die die asymptotisch höchste Leistung bei beiden Aufgaben erzielt, dieselbe ist. Wir vereinen einen großen Teil der bestehenden Literatur im Kontext dieser optimalen Metrik und stellen die Hypothese auf, dass die Genauigkeit, mit der eine gegebene Methode diese Metrik annähert, direkt mit ihrer Übertragbarkeit korreliert. Unsere umfangreichen empirischen Experimente, darunter 7 state-of-the-art MIA-Methoden und 5 state-of-the-art Erkennungsmethoden für maschinell erzeugte Texte über 13 Domänen und 10 Generatoren hinweg, zeigen eine sehr starke Rangkorrelation (rho > 0,6) in der leistungsübergreifenden Anwendung. Bemerkenswerterweise stellen wir fest, dass Binoculars, das ursprünglich für die Erkennung maschinell erzeugter Texte entwickelt wurde, auch bei MIA-Benchmarks state-of-the-art Leistung erzielt, was die praktische Bedeutung der Übertragbarkeit unterstreicht. Unsere Ergebnisse verdeutlichen die Notwendigkeit eines stärkeren Bewusstseins und einer stärkeren Zusammenarbeit zwischen den beiden Forschungsgemeinschaften. Um übergreifende Entwicklungen und faire Bewertungen zu erleichtern, führen wir MINT ein, eine einheitliche Evaluationsplattform für MIAs und die Erkennung maschinell erzeugter Texte, mit der Implementierung von 15 aktuellen Methoden aus beiden Aufgabenbereichen.
English
Although membership inference attacks (MIAs) and machine-generated text
detection target different goals, identifying training samples and synthetic
texts, their methods often exploit similar signals based on a language model's
probability distribution. Despite this shared methodological foundation, the
two tasks have been independently studied, which may lead to conclusions that
overlook stronger methods and valuable insights developed in the other task. In
this work, we theoretically and empirically investigate the transferability,
i.e., how well a method originally developed for one task performs on the
other, between MIAs and machine text detection. For our theoretical
contribution, we prove that the metric that achieves the asymptotically highest
performance on both tasks is the same. We unify a large proportion of the
existing literature in the context of this optimal metric and hypothesize that
the accuracy with which a given method approximates this metric is directly
correlated with its transferability. Our large-scale empirical experiments,
including 7 state-of-the-art MIA methods and 5 state-of-the-art machine text
detectors across 13 domains and 10 generators, demonstrate very strong rank
correlation (rho > 0.6) in cross-task performance. We notably find that
Binoculars, originally designed for machine text detection, achieves
state-of-the-art performance on MIA benchmarks as well, demonstrating the
practical impact of the transferability. Our findings highlight the need for
greater cross-task awareness and collaboration between the two research
communities. To facilitate cross-task developments and fair evaluations, we
introduce MINT, a unified evaluation suite for MIAs and machine-generated text
detection, with implementation of 15 recent methods from both tasks.