Angriffe auf Detektoren für maschinell erzeugten Text weisen weiterhin stilistische Fingerabdrücke auf.

Zusammenfassung

Trotz erheblicher Fortschritte bei der Entwicklung von maschinellen Texterkennern hat die Leichtigkeit, mit der maschineller Text manipuliert werden kann, um einer Erkennung zu entgehen, zu der Annahme geführt, dass das Problem grundsätzlich unlösbar sei. In dieser Arbeit untersuchen wir die Grenzen solcher Umgehungsstrategien. Wir zeigen, dass aktuelle Angriffe – von Prompt-Engineering bis hin zu detektorgeleiteter Optimierung – zwar die Leistung standardmäßiger Detektoren wirksam beeinträchtigen können, es ihnen jedoch nicht gelingt, die zugrundeliegenden stilistischen „Fingerabdrücke" maschinellen Textes zu tilgen. Wir zeigen, dass Few-Shot-Detektoren, die den stilistischen Merkmalsraum nutzen, robust gegenüber diesen Umgehungsversuchen sind und zuverlässig Proben selbst von Modellen erkennen, die explizit darauf abgestimmt sind, eine Erkennung zu verhindern. Dies wirft die Frage auf: Stellt Stil eine universelle Verteidigung gegen maschinelle Erkennungsangriffe dar? Wir demonstrieren, dass die Antwort „Nein" lautet, indem wir einen neuartigen Paraphrasierungsansatz einführen, der gleichzeitig für Nichterkennbarkeit und die Anpassung an spezifische menschliche Stile optimiert. Wir zeigen, dass dieser Angriff im Gegensatz zu früheren Methoden effektiv allen betrachteten Detektoren entgeht, einschließlich jener, die den Schreibstil nutzen. Allerdings stellen wir fest, dass diese Umgehung nicht absolut ist: Mit zunehmender Anzahl der für die Analyse verfügbaren Dokumente werden die menschlichen und maschinellen Verteilungen wieder unterscheidbar. Insgesamt deuten unsere Ergebnisse darauf hin, dass eine zuverlässige Erkennung maschinellen Textes über die Einzeldokumentanalyse hinaus zur Mehrdokumentanalyse übergehen muss.

English

Despite considerable progress in the development of machine-text detectors, the ease with which machine-text can be manipulated to evade detection has led to suggestions that the problem is inherently intractable. In this work, we investigate the limits of such evasion strategies. We demonstrate that while current attacks, ranging from prompt engineering to detector-guided optimization can effectively degrade performance of standard detectors, they fail to erase the underlying stylistic "fingerprints" of machine text. We show that few-shot detectors that utilize the stylistic feature space are robust to these evasion attempts, reliably detecting samples even from models explicitly tuned to prevent detection. This raises the question: does style represent a universal defense against machine-detection attacks? We demonstrate that the answer is "no'' by introducing a novel paraphrasing approach that simultaneously optimizes for undetectability and adherence to specific human styles. We show that unlike prior methods, this attack effectively evades all considered detectors, including those that utilize writing style. However, we find that this evasion is not absolute: as the number of documents available for analysis grows, the human and machine distributions become distinguishable again. Overall, our findings suggest that reliable machine-text detection requires moving beyond single-document analysis to multi-document analysis.