Stress-testen van detectie van machinaal gegenereerde tekst: Schrijfstijl van taalmodel aanpassen om detectoren te misleiden
Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors
May 30, 2025
Auteurs: Andrea Pedrotti, Michele Papucci, Cristiano Ciaccio, Alessio Miaschi, Giovanni Puccetti, Felice Dell'Orletta, Andrea Esuli
cs.AI
Samenvatting
Recente ontwikkelingen in Generatieve AI en Grote Taalmodellen (LLMs) hebben
het mogelijk gemaakt om zeer realistische synthetische content te creëren, wat
zorgen oproept over het potentieel voor kwaadwillig gebruik, zoals desinformatie
en manipulatie. Bovendien blijft het detecteren van Machine-Gegenereerde Tekst
(MGT) een uitdaging vanwege het ontbreken van robuuste benchmarks die de
generaliseerbaarheid naar real-world scenario's beoordelen. In dit werk presenteren
we een pipeline om de veerkracht van state-of-the-art MGT-detectoren (bijv. Mage,
Radar, LLM-DetectAIve) te testen tegen taalkundig geïnformeerde adversariële aanvallen.
Om de detectoren uit te dagen, fine-tunen we taalmodellen met behulp van Direct
Preference Optimization (DPO) om de MGT-stijl te verschuiven naar door mensen
geschreven tekst (HWT). Dit maakt gebruik van de afhankelijkheid van detectoren
van stilistische aanwijzingen, waardoor nieuwe generaties moeilijker te detecteren
zijn. Daarnaast analyseren we de taalkundige verschuivingen die door de alignment
worden veroorzaakt en welke kenmerken door detectoren worden gebruikt om MGT-teksten
te detecteren. Onze resultaten laten zien dat detectoren relatief eenvoudig kunnen
worden misleid met relatief weinig voorbeelden, wat resulteert in een significante
daling in detectieprestaties. Dit benadrukt het belang van het verbeteren van
detectiemethoden en het robuust maken ervan tegen ongeziene in-domein teksten.
English
Recent advancements in Generative AI and Large Language Models (LLMs) have
enabled the creation of highly realistic synthetic content, raising concerns
about the potential for malicious use, such as misinformation and manipulation.
Moreover, detecting Machine-Generated Text (MGT) remains challenging due to the
lack of robust benchmarks that assess generalization to real-world scenarios.
In this work, we present a pipeline to test the resilience of state-of-the-art
MGT detectors (e.g., Mage, Radar, LLM-DetectAIve) to linguistically informed
adversarial attacks. To challenge the detectors, we fine-tune language models
using Direct Preference Optimization (DPO) to shift the MGT style toward
human-written text (HWT). This exploits the detectors' reliance on stylistic
clues, making new generations more challenging to detect. Additionally, we
analyze the linguistic shifts induced by the alignment and which features are
used by detectors to detect MGT texts. Our results show that detectors can be
easily fooled with relatively few examples, resulting in a significant drop in
detection performance. This highlights the importance of improving detection
methods and making them robust to unseen in-domain texts.