Aanvallen op machinetekstdetectoren behouden stilistische vingerafdrukken

Samenvatting

Ondanks aanzienlijke vooruitgang in de ontwikkeling van detectoren voor machinetekst, heeft het gemak waarmee machinetekst kan worden gemanipuleerd om detectie te omzeilen, geleid tot suggesties dat het probleem inherent onoplosbaar is. In dit werk onderzoeken we de grenzen van dergelijke ontwijkingsstrategieën. We tonen aan dat hoewel huidige aanvallen, variërend van prompt engineering tot detector-geleide optimalisatie, de prestaties van standaard detectoren effectief kunnen verslechteren, ze er niet in slagen de onderliggende stilistische 'vingerafdrukken' van machinetekst uit te wissen. We laten zien dat few-shot detectoren die de stilistische kenmerkruimte gebruiken, robuust zijn tegen deze ontwijkingspogingen en betrouwbaar monsters detecteren, zelfs van modellen die expliciet zijn afgestemd om detectie te voorkomen. Dit roept de vraag op: vertegenwoordigt stijl een universele verdediging tegen machinedetectie-aanvallen? We tonen aan dat het antwoord 'nee' is door een nieuwe parafraseringsmethode te introduceren die tegelijkertijd optimaliseert voor ondetecteerbaarheid en het naleven van specifieke menselijke stijlen. We laten zien dat deze aanval, in tegenstelling tot eerdere methoden, effectief alle beschouwde detectoren omzeilt, inclusief degenen die gebruikmaken van schrijfstijl. Echter, we vinden dat deze ontwijking niet absoluut is: naarmate het aantal beschikbare documenten voor analyse groeit, worden de menselijke en machineverdelingen weer te onderscheiden. Over het algemeen suggereren onze bevindingen dat betrouwbare detectie van machinetekst vereist dat we verder gaan dan analyse van één document naar analyse van meerdere documenten.

English

Despite considerable progress in the development of machine-text detectors, the ease with which machine-text can be manipulated to evade detection has led to suggestions that the problem is inherently intractable. In this work, we investigate the limits of such evasion strategies. We demonstrate that while current attacks, ranging from prompt engineering to detector-guided optimization can effectively degrade performance of standard detectors, they fail to erase the underlying stylistic "fingerprints" of machine text. We show that few-shot detectors that utilize the stylistic feature space are robust to these evasion attempts, reliably detecting samples even from models explicitly tuned to prevent detection. This raises the question: does style represent a universal defense against machine-detection attacks? We demonstrate that the answer is "no'' by introducing a novel paraphrasing approach that simultaneously optimizes for undetectability and adherence to specific human styles. We show that unlike prior methods, this attack effectively evades all considered detectors, including those that utilize writing style. However, we find that this evasion is not absolute: as the number of documents available for analysis grows, the human and machine distributions become distinguishable again. Overall, our findings suggest that reliable machine-text detection requires moving beyond single-document analysis to multi-document analysis.