Stresstests zur Erkennung maschinell erzeugter Texte: Veränderung des Schreibstils von Sprachmodellen zur Täuschung von Detektoren
Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors
May 30, 2025
Autoren: Andrea Pedrotti, Michele Papucci, Cristiano Ciaccio, Alessio Miaschi, Giovanni Puccetti, Felice Dell'Orletta, Andrea Esuli
cs.AI
Zusammenfassung
Jüngste Fortschritte in der Generativen KI und bei großen Sprachmodellen (Large Language Models, LLMs) haben die Erstellung von hochrealistischem synthetischem Content ermöglicht, was Bedenken hinsichtlich des potenziellen Missbrauchs, wie etwa Desinformation und Manipulation, aufwirft. Darüber hinaus bleibt die Erkennung von maschinell generierten Texten (Machine-Generated Text, MGT) aufgrund des Mangels an robusten Benchmarks, die die Generalisierbarkeit auf reale Szenarien bewerten, eine Herausforderung. In dieser Arbeit präsentieren wir eine Pipeline, um die Widerstandsfähigkeit modernster MGT-Detektoren (z. B. Mage, Radar, LLM-DetectAIve) gegenüber linguistisch fundierten adversarischen Angriffen zu testen. Um die Detektoren herauszufordern, feintunen wir Sprachmodelle mithilfe von Direct Preference Optimization (DPO), um den Stil von MGT in Richtung von menschengeschriebenen Texten (Human-Written Text, HWT) zu verschieben. Dies nutzt die Abhängigkeit der Detektoren von stilistischen Hinweisen aus, wodurch neue Generationen schwieriger zu erkennen sind. Zusätzlich analysieren wir die durch die Anpassung induzierten linguistischen Verschiebungen und welche Merkmale von den Detektoren zur Erkennung von MGT-Texten verwendet werden. Unsere Ergebnisse zeigen, dass Detektoren mit relativ wenigen Beispielen leicht getäuscht werden können, was zu einem signifikanten Rückgang der Erkennungsleistung führt. Dies unterstreicht die Bedeutung der Verbesserung von Erkennungsmethoden und ihrer Robustheit gegenüber unbekannten domänenspezifischen Texten.
English
Recent advancements in Generative AI and Large Language Models (LLMs) have
enabled the creation of highly realistic synthetic content, raising concerns
about the potential for malicious use, such as misinformation and manipulation.
Moreover, detecting Machine-Generated Text (MGT) remains challenging due to the
lack of robust benchmarks that assess generalization to real-world scenarios.
In this work, we present a pipeline to test the resilience of state-of-the-art
MGT detectors (e.g., Mage, Radar, LLM-DetectAIve) to linguistically informed
adversarial attacks. To challenge the detectors, we fine-tune language models
using Direct Preference Optimization (DPO) to shift the MGT style toward
human-written text (HWT). This exploits the detectors' reliance on stylistic
clues, making new generations more challenging to detect. Additionally, we
analyze the linguistic shifts induced by the alignment and which features are
used by detectors to detect MGT texts. Our results show that detectors can be
easily fooled with relatively few examples, resulting in a significant drop in
detection performance. This highlights the importance of improving detection
methods and making them robust to unseen in-domain texts.