I rilevatori di testo generato da macchine sono attacchi di inferenza di appartenenza.
Machine Text Detectors are Membership Inference Attacks
October 22, 2025
Autori: Ryuto Koike, Liam Dugan, Masahiro Kaneko, Chris Callison-Burch, Naoaki Okazaki
cs.AI
Abstract
Sebbene gli attacchi di inferenza di appartenenza (MIAs) e il rilevamento di testi generati da macchine perseguano obiettivi diversi, ovvero l'identificazione di campioni di addestramento e di testi sintetici, i loro metodi spesso sfruttano segnali simili basati sulla distribuzione di probabilità di un modello linguistico. Nonostante questa base metodologica condivisa, i due compiti sono stati studiati in modo indipendente, il che può portare a conclusioni che trascurano metodi più robusti e intuizioni preziose sviluppate nell'altro ambito. In questo lavoro, indaghiamo teoricamente ed empiricamente la trasferibilità, ovvero quanto bene un metodo originariamente sviluppato per un compito si presti all'altro, tra MIAs e il rilevamento di testi generati da macchine. Per il nostro contributo teorico, dimostriamo che la metrica che raggiunge le prestazioni asintoticamente più elevate in entrambi i compiti è la stessa. Unifichiamo una grande parte della letteratura esistente nel contesto di questa metrica ottimale e ipotizziamo che l'accuratezza con cui un determinato metodo approssima questa metrica sia direttamente correlata alla sua trasferibilità. I nostri esperimenti empirici su larga scala, che includono 7 metodi MIA all'avanguardia e 5 rilevatori di testi generati da macchine all'avanguardia in 13 domini e con 10 generatori, dimostrano una forte correlazione di rango (rho > 0,6) nelle prestazioni tra i compiti. Notiamo in particolare che Binoculars, originariamente progettato per il rilevamento di testi generati da macchine, raggiunge prestazioni all'avanguardia anche nei benchmark MIA, dimostrando l'impatto pratico della trasferibilità. Le nostre scoperte evidenziano la necessità di una maggiore consapevolezza e collaborazione tra le due comunità di ricerca. Per facilitare sviluppi e valutazioni eque tra i compiti, introduciamo MINT, una suite di valutazione unificata per MIAs e il rilevamento di testi generati da macchine, con l'implementazione di 15 metodi recenti di entrambi i compiti.
English
Although membership inference attacks (MIAs) and machine-generated text
detection target different goals, identifying training samples and synthetic
texts, their methods often exploit similar signals based on a language model's
probability distribution. Despite this shared methodological foundation, the
two tasks have been independently studied, which may lead to conclusions that
overlook stronger methods and valuable insights developed in the other task. In
this work, we theoretically and empirically investigate the transferability,
i.e., how well a method originally developed for one task performs on the
other, between MIAs and machine text detection. For our theoretical
contribution, we prove that the metric that achieves the asymptotically highest
performance on both tasks is the same. We unify a large proportion of the
existing literature in the context of this optimal metric and hypothesize that
the accuracy with which a given method approximates this metric is directly
correlated with its transferability. Our large-scale empirical experiments,
including 7 state-of-the-art MIA methods and 5 state-of-the-art machine text
detectors across 13 domains and 10 generators, demonstrate very strong rank
correlation (rho > 0.6) in cross-task performance. We notably find that
Binoculars, originally designed for machine text detection, achieves
state-of-the-art performance on MIA benchmarks as well, demonstrating the
practical impact of the transferability. Our findings highlight the need for
greater cross-task awareness and collaboration between the two research
communities. To facilitate cross-task developments and fair evaluations, we
introduce MINT, a unified evaluation suite for MIAs and machine-generated text
detection, with implementation of 15 recent methods from both tasks.