ChatPaper.aiChatPaper

Machine Text Detectors zijn Lidmaatschapsinferentie-aanvallen.

Machine Text Detectors are Membership Inference Attacks

October 22, 2025
Auteurs: Ryuto Koike, Liam Dugan, Masahiro Kaneko, Chris Callison-Burch, Naoaki Okazaki
cs.AI

Samenvatting

Hoewel membership inference attacks (MIAs) en detectie van machinaal gegenereerde tekst verschillende doelen nastreven, namelijk het identificeren van trainingsvoorbeelden en synthetische teksten, maken hun methoden vaak gebruik van vergelijkbare signalen gebaseerd op de waarschijnlijkheidsverdeling van een taalmodel. Ondanks deze gedeelde methodologische basis zijn de twee taken onafhankelijk van elkaar bestudeerd, wat kan leiden tot conclusies die sterkere methoden en waardevolle inzichten die in de andere taak zijn ontwikkeld over het hoofd zien. In dit werk onderzoeken we theoretisch en empirisch de overdraagbaarheid, d.w.z. hoe goed een methode die oorspronkelijk voor de ene taak is ontwikkeld presteert op de andere, tussen MIAs en detectie van machinaal gegenereerde tekst. Voor onze theoretische bijdrage bewijzen we dat de metriek die de asymptotisch hoogste prestaties op beide taken bereikt, dezelfde is. We verenigen een groot deel van de bestaande literatuur in de context van deze optimale metriek en stellen de hypothese op dat de nauwkeurigheid waarmee een bepaalde methode deze metriek benadert, direct gecorreleerd is met de overdraagbaarheid ervan. Onze grootschalige empirische experimenten, met 7 state-of-the-art MIA-methoden en 5 state-of-the-art detectiemethoden voor machinaal gegenereerde tekst over 13 domeinen en 10 generatoren, tonen een zeer sterke rangcorrelatie (rho > 0,6) in kruistakenprestaties. We merken opvallend genoeg op dat Binoculars, oorspronkelijk ontworpen voor detectie van machinaal gegenereerde tekst, ook state-of-the-art prestaties behaalt op MIA-benchmarks, wat de praktische impact van de overdraagbaarheid aantoont. Onze bevindingen benadrukken de noodzaak van een grotere kruistakenbewustwording en samenwerking tussen de twee onderzoeksgemeenschappen. Om kruistakenontwikkelingen en eerlijke evaluaties te vergemakkelijken, introduceren we MINT, een geïntegreerd evaluatiepakket voor MIAs en detectie van machinaal gegenereerde tekst, met implementaties van 15 recente methoden uit beide taken.
English
Although membership inference attacks (MIAs) and machine-generated text detection target different goals, identifying training samples and synthetic texts, their methods often exploit similar signals based on a language model's probability distribution. Despite this shared methodological foundation, the two tasks have been independently studied, which may lead to conclusions that overlook stronger methods and valuable insights developed in the other task. In this work, we theoretically and empirically investigate the transferability, i.e., how well a method originally developed for one task performs on the other, between MIAs and machine text detection. For our theoretical contribution, we prove that the metric that achieves the asymptotically highest performance on both tasks is the same. We unify a large proportion of the existing literature in the context of this optimal metric and hypothesize that the accuracy with which a given method approximates this metric is directly correlated with its transferability. Our large-scale empirical experiments, including 7 state-of-the-art MIA methods and 5 state-of-the-art machine text detectors across 13 domains and 10 generators, demonstrate very strong rank correlation (rho > 0.6) in cross-task performance. We notably find that Binoculars, originally designed for machine text detection, achieves state-of-the-art performance on MIA benchmarks as well, demonstrating the practical impact of the transferability. Our findings highlight the need for greater cross-task awareness and collaboration between the two research communities. To facilitate cross-task developments and fair evaluations, we introduce MINT, a unified evaluation suite for MIAs and machine-generated text detection, with implementation of 15 recent methods from both tasks.
PDF11October 23, 2025