Les attaques contre les détecteurs de texte généré par machine conservent des empreintes stylistiques.

Résumé

Malgré des progrès considérables dans le développement de détecteurs de textes générés par machine, la facilité avec laquelle ces textes peuvent être manipulés pour échapper à la détection a conduit à suggérer que le problème est intrinsèquement insoluble. Dans ce travail, nous étudions les limites de ces stratégies d'évasion. Nous démontrons que si les attaques actuelles, allant de l'ingénierie de prompt à l'optimisation guidée par détecteur, peuvent effectivement dégrader les performances des détecteurs standards, elles échouent à effacer les «empreintes digitales» stylistiques sous-jacentes du texte généré par machine. Nous montrons que les détecteurs few-shot qui utilisent l'espace de caractéristiques stylistiques sont robustes à ces tentatives d'évasion, détectant de manière fiable les échantillons même provenant de modèles explicitement ajustés pour éviter la détection. Cela soulève la question : le style représente-t-il une défense universelle contre les attaques de détection automatique ? Nous démontrons que la réponse est « non » en introduisant une nouvelle approche de paraphrase qui optimise simultanément l'indétectabilité et l'adhésion à des styles humains spécifiques. Nous montrons que contrairement aux méthodes antérieures, cette attaque échappe efficacement à tous les détecteurs considérés, y compris ceux qui utilisent le style d'écriture. Cependant, nous constatons que cette évasion n'est pas absolue : à mesure que le nombre de documents disponibles pour l'analyse augmente, les distributions humaine et machine redeviennent distinguables. Dans l'ensemble, nos résultats suggèrent qu'une détection fiable des textes générés par machine nécessite de dépasser l'analyse d'un seul document pour passer à une analyse multi-documents.

English

Despite considerable progress in the development of machine-text detectors, the ease with which machine-text can be manipulated to evade detection has led to suggestions that the problem is inherently intractable. In this work, we investigate the limits of such evasion strategies. We demonstrate that while current attacks, ranging from prompt engineering to detector-guided optimization can effectively degrade performance of standard detectors, they fail to erase the underlying stylistic "fingerprints" of machine text. We show that few-shot detectors that utilize the stylistic feature space are robust to these evasion attempts, reliably detecting samples even from models explicitly tuned to prevent detection. This raises the question: does style represent a universal defense against machine-detection attacks? We demonstrate that the answer is "no'' by introducing a novel paraphrasing approach that simultaneously optimizes for undetectability and adherence to specific human styles. We show that unlike prior methods, this attack effectively evades all considered detectors, including those that utilize writing style. However, we find that this evasion is not absolute: as the number of documents available for analysis grows, the human and machine distributions become distinguishable again. Overall, our findings suggest that reliable machine-text detection requires moving beyond single-document analysis to multi-document analysis.