Les détecteurs de texte généré par machine sont des attaques par inférence d'appartenance.

papers.abstract

Bien que les attaques par inférence d'appartenance (MIAs) et la détection de textes générés par machine visent des objectifs différents, à savoir l'identification des échantillons d'entraînement et des textes synthétiques, leurs méthodes exploitent souvent des signaux similaires basés sur la distribution de probabilité d'un modèle de langage. Malgré cette fondation méthodologique commune, les deux tâches ont été étudiées indépendamment, ce qui peut conduire à des conclusions qui négligent des méthodes plus robustes et des insights précieux développés dans l'autre tâche. Dans ce travail, nous étudions théoriquement et empiriquement la transférabilité, c'est-à-dire la performance d'une méthode initialement développée pour une tâche lorsqu'elle est appliquée à l'autre, entre les MIAs et la détection de textes générés par machine. Pour notre contribution théorique, nous prouvons que la métrique qui atteint la performance asymptotiquement la plus élevée pour les deux tâches est la même. Nous unifions une grande partie de la littérature existante dans le contexte de cette métrique optimale et émettons l'hypothèse que la précision avec laquelle une méthode donnée approxime cette métrique est directement corrélée à sa transférabilité. Nos expériences empiriques à grande échelle, incluant 7 méthodes de MIA et 5 détecteurs de textes générés par machine de pointe, couvrant 13 domaines et 10 générateurs, démontrent une très forte corrélation de rang (rho > 0,6) dans la performance inter-tâches. Nous constatons notamment que Binoculars, initialement conçu pour la détection de textes générés par machine, atteint également des performances de pointe sur les benchmarks de MIA, illustrant l'impact pratique de la transférabilité. Nos résultats soulignent la nécessité d'une meilleure sensibilisation et collaboration inter-tâches entre les deux communautés de recherche. Pour faciliter les développements inter-tâches et les évaluations équitables, nous introduisons MINT, une suite d'évaluation unifiée pour les MIAs et la détection de textes générés par machine, avec l'implémentation de 15 méthodes récentes issues des deux tâches.

English

Although membership inference attacks (MIAs) and machine-generated text detection target different goals, identifying training samples and synthetic texts, their methods often exploit similar signals based on a language model's probability distribution. Despite this shared methodological foundation, the two tasks have been independently studied, which may lead to conclusions that overlook stronger methods and valuable insights developed in the other task. In this work, we theoretically and empirically investigate the transferability, i.e., how well a method originally developed for one task performs on the other, between MIAs and machine text detection. For our theoretical contribution, we prove that the metric that achieves the asymptotically highest performance on both tasks is the same. We unify a large proportion of the existing literature in the context of this optimal metric and hypothesize that the accuracy with which a given method approximates this metric is directly correlated with its transferability. Our large-scale empirical experiments, including 7 state-of-the-art MIA methods and 5 state-of-the-art machine text detectors across 13 domains and 10 generators, demonstrate very strong rank correlation (rho > 0.6) in cross-task performance. We notably find that Binoculars, originally designed for machine text detection, achieves state-of-the-art performance on MIA benchmarks as well, demonstrating the practical impact of the transferability. Our findings highlight the need for greater cross-task awareness and collaboration between the two research communities. To facilitate cross-task developments and fair evaluations, we introduce MINT, a unified evaluation suite for MIAs and machine-generated text detection, with implementation of 15 recent methods from both tasks.

Les détecteurs de texte généré par machine sont des attaques par inférence d'appartenance.

Machine Text Detectors are Membership Inference Attacks

papers.abstract

Support