Los detectores de texto generado por máquinas son ataques de inferencia de pertenencia.
Machine Text Detectors are Membership Inference Attacks
October 22, 2025
Autores: Ryuto Koike, Liam Dugan, Masahiro Kaneko, Chris Callison-Burch, Naoaki Okazaki
cs.AI
Resumen
Aunque los ataques de inferencia de pertenencia (MIAs, por sus siglas en inglés) y la detección de texto generado por máquina persiguen objetivos diferentes, identificar muestras de entrenamiento y textos sintéticos, sus métodos a menudo explotan señales similares basadas en la distribución de probabilidad de un modelo de lenguaje. A pesar de esta base metodológica compartida, las dos tareas se han estudiado de manera independiente, lo que puede llevar a conclusiones que pasan por alto métodos más robustos y conocimientos valiosos desarrollados en la otra tarea. En este trabajo, investigamos teórica y empíricamente la transferibilidad, es decir, qué tan bien un método desarrollado originalmente para una tarea funciona en la otra, entre los MIAs y la detección de texto generado por máquina. Para nuestra contribución teórica, demostramos que la métrica que alcanza el rendimiento asintóticamente más alto en ambas tareas es la misma. Unificamos una gran proporción de la literatura existente en el contexto de esta métrica óptima y planteamos la hipótesis de que la precisión con la que un método dado se aproxima a esta métrica está directamente correlacionada con su transferibilidad. Nuestros experimentos empíricos a gran escala, que incluyen 7 métodos de MIA de vanguardia y 5 detectores de texto generado por máquina de última generación en 13 dominios y 10 generadores, demuestran una correlación de rango muy fuerte (rho > 0.6) en el rendimiento cruzado entre tareas. Destacamos que Binoculars, diseñado originalmente para la detección de texto generado por máquina, también alcanza un rendimiento de vanguardia en los benchmarks de MIAs, demostrando el impacto práctico de la transferibilidad. Nuestros hallazgos resaltan la necesidad de una mayor conciencia y colaboración entre las dos comunidades de investigación. Para facilitar desarrollos cruzados y evaluaciones justas, presentamos MINT, un conjunto de evaluación unificado para MIAs y detección de texto generado por máquina, con la implementación de 15 métodos recientes de ambas tareas.
English
Although membership inference attacks (MIAs) and machine-generated text
detection target different goals, identifying training samples and synthetic
texts, their methods often exploit similar signals based on a language model's
probability distribution. Despite this shared methodological foundation, the
two tasks have been independently studied, which may lead to conclusions that
overlook stronger methods and valuable insights developed in the other task. In
this work, we theoretically and empirically investigate the transferability,
i.e., how well a method originally developed for one task performs on the
other, between MIAs and machine text detection. For our theoretical
contribution, we prove that the metric that achieves the asymptotically highest
performance on both tasks is the same. We unify a large proportion of the
existing literature in the context of this optimal metric and hypothesize that
the accuracy with which a given method approximates this metric is directly
correlated with its transferability. Our large-scale empirical experiments,
including 7 state-of-the-art MIA methods and 5 state-of-the-art machine text
detectors across 13 domains and 10 generators, demonstrate very strong rank
correlation (rho > 0.6) in cross-task performance. We notably find that
Binoculars, originally designed for machine text detection, achieves
state-of-the-art performance on MIA benchmarks as well, demonstrating the
practical impact of the transferability. Our findings highlight the need for
greater cross-task awareness and collaboration between the two research
communities. To facilitate cross-task developments and fair evaluations, we
introduce MINT, a unified evaluation suite for MIAs and machine-generated text
detection, with implementation of 15 recent methods from both tasks.