Test de résistance de la détection de texte généré par machine : Modifier le style d'écriture des modèles de langage pour tromper les détecteurs
Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors
May 30, 2025
Auteurs: Andrea Pedrotti, Michele Papucci, Cristiano Ciaccio, Alessio Miaschi, Giovanni Puccetti, Felice Dell'Orletta, Andrea Esuli
cs.AI
Résumé
Les récentes avancées en matière d'IA générative et de modèles de langage à grande échelle (LLMs) ont permis la création de contenus synthétiques hautement réalistes, suscitant des inquiétudes quant à leur utilisation malveillante, telle que la désinformation et la manipulation. Par ailleurs, la détection de textes générés par machine (MGT) reste un défi en raison du manque de benchmarks robustes évaluant la généralisation à des scénarios réels. Dans ce travail, nous présentons une pipeline pour tester la résilience des détecteurs de MGT de pointe (par exemple, Mage, Radar, LLM-DetectAIve) face à des attaques adverses linguistiquement informées. Pour mettre ces détecteurs à l'épreuve, nous affinons des modèles de langage en utilisant l'Optimisation Directe des Préférences (DPO) afin de rapprocher le style des MGT de celui des textes rédigés par des humains (HWT). Cela exploite la dépendance des détecteurs aux indices stylistiques, rendant les nouvelles générations plus difficiles à détecter. De plus, nous analysons les changements linguistiques induits par cet alignement et les caractéristiques utilisées par les détecteurs pour identifier les textes MGT. Nos résultats montrent que les détecteurs peuvent être facilement trompés avec relativement peu d'exemples, entraînant une baisse significative des performances de détection. Cela souligne l'importance d'améliorer les méthodes de détection et de les rendre robustes face à des textes inédits dans le domaine.
English
Recent advancements in Generative AI and Large Language Models (LLMs) have
enabled the creation of highly realistic synthetic content, raising concerns
about the potential for malicious use, such as misinformation and manipulation.
Moreover, detecting Machine-Generated Text (MGT) remains challenging due to the
lack of robust benchmarks that assess generalization to real-world scenarios.
In this work, we present a pipeline to test the resilience of state-of-the-art
MGT detectors (e.g., Mage, Radar, LLM-DetectAIve) to linguistically informed
adversarial attacks. To challenge the detectors, we fine-tune language models
using Direct Preference Optimization (DPO) to shift the MGT style toward
human-written text (HWT). This exploits the detectors' reliance on stylistic
clues, making new generations more challenging to detect. Additionally, we
analyze the linguistic shifts induced by the alignment and which features are
used by detectors to detect MGT texts. Our results show that detectors can be
easily fooled with relatively few examples, resulting in a significant drop in
detection performance. This highlights the importance of improving detection
methods and making them robust to unseen in-domain texts.