Les détecteurs de texte généré par machine sont des attaques par inférence d'appartenance.
Machine Text Detectors are Membership Inference Attacks
October 22, 2025
papers.authors: Ryuto Koike, Liam Dugan, Masahiro Kaneko, Chris Callison-Burch, Naoaki Okazaki
cs.AI
papers.abstract
Bien que les attaques par inférence d'appartenance (MIAs) et la détection de textes générés par machine visent des objectifs différents, à savoir l'identification des échantillons d'entraînement et des textes synthétiques, leurs méthodes exploitent souvent des signaux similaires basés sur la distribution de probabilité d'un modèle de langage. Malgré cette fondation méthodologique commune, les deux tâches ont été étudiées indépendamment, ce qui peut conduire à des conclusions qui négligent des méthodes plus robustes et des insights précieux développés dans l'autre tâche. Dans ce travail, nous étudions théoriquement et empiriquement la transférabilité, c'est-à-dire la performance d'une méthode initialement développée pour une tâche lorsqu'elle est appliquée à l'autre, entre les MIAs et la détection de textes générés par machine. Pour notre contribution théorique, nous prouvons que la métrique qui atteint la performance asymptotiquement la plus élevée pour les deux tâches est la même. Nous unifions une grande partie de la littérature existante dans le contexte de cette métrique optimale et émettons l'hypothèse que la précision avec laquelle une méthode donnée approxime cette métrique est directement corrélée à sa transférabilité. Nos expériences empiriques à grande échelle, incluant 7 méthodes de MIA et 5 détecteurs de textes générés par machine de pointe, couvrant 13 domaines et 10 générateurs, démontrent une très forte corrélation de rang (rho > 0,6) dans la performance inter-tâches. Nous constatons notamment que Binoculars, initialement conçu pour la détection de textes générés par machine, atteint également des performances de pointe sur les benchmarks de MIA, illustrant l'impact pratique de la transférabilité. Nos résultats soulignent la nécessité d'une meilleure sensibilisation et collaboration inter-tâches entre les deux communautés de recherche. Pour faciliter les développements inter-tâches et les évaluations équitables, nous introduisons MINT, une suite d'évaluation unifiée pour les MIAs et la détection de textes générés par machine, avec l'implémentation de 15 méthodes récentes issues des deux tâches.
English
Although membership inference attacks (MIAs) and machine-generated text
detection target different goals, identifying training samples and synthetic
texts, their methods often exploit similar signals based on a language model's
probability distribution. Despite this shared methodological foundation, the
two tasks have been independently studied, which may lead to conclusions that
overlook stronger methods and valuable insights developed in the other task. In
this work, we theoretically and empirically investigate the transferability,
i.e., how well a method originally developed for one task performs on the
other, between MIAs and machine text detection. For our theoretical
contribution, we prove that the metric that achieves the asymptotically highest
performance on both tasks is the same. We unify a large proportion of the
existing literature in the context of this optimal metric and hypothesize that
the accuracy with which a given method approximates this metric is directly
correlated with its transferability. Our large-scale empirical experiments,
including 7 state-of-the-art MIA methods and 5 state-of-the-art machine text
detectors across 13 domains and 10 generators, demonstrate very strong rank
correlation (rho > 0.6) in cross-task performance. We notably find that
Binoculars, originally designed for machine text detection, achieves
state-of-the-art performance on MIA benchmarks as well, demonstrating the
practical impact of the transferability. Our findings highlight the need for
greater cross-task awareness and collaboration between the two research
communities. To facilitate cross-task developments and fair evaluations, we
introduce MINT, a unified evaluation suite for MIAs and machine-generated text
detection, with implementation of 15 recent methods from both tasks.