Test di stress per il rilevamento di testo generato da macchine: Modificare lo stile di scrittura dei modelli linguistici per ingannare i rilevatori
Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors
May 30, 2025
Autori: Andrea Pedrotti, Michele Papucci, Cristiano Ciaccio, Alessio Miaschi, Giovanni Puccetti, Felice Dell'Orletta, Andrea Esuli
cs.AI
Abstract
I recenti progressi nell'Intelligenza Artificiale Generativa e nei Modelli Linguistici di Grande Scala (LLM) hanno reso possibile la creazione di contenuti sintetici altamente realistici, sollevando preoccupazioni riguardo al potenziale uso malevolo, come la disinformazione e la manipolazione. Inoltre, il rilevamento di Testo Generato da Macchine (MGT) rimane una sfida a causa della mancanza di benchmark robusti che valutino la generalizzazione a scenari del mondo reale. In questo lavoro, presentiamo una pipeline per testare la resilienza dei rilevatori di MGT all'avanguardia (ad esempio, Mage, Radar, LLM-DetectAIve) rispetto ad attacchi avversari linguisticamente informati. Per mettere alla prova i rilevatori, ottimizziamo i modelli linguistici utilizzando l'Optimizzazione Diretta delle Preferenze (DPO) per spostare lo stile del MGT verso quello del testo scritto da esseri umani (HWT). Ciò sfrutta la dipendenza dei rilevatori da indizi stilistici, rendendo le nuove generazioni più difficili da rilevare. Inoltre, analizziamo i cambiamenti linguistici indotti dall'allineamento e quali caratteristiche vengono utilizzate dai rilevatori per identificare i testi MGT. I nostri risultati dimostrano che i rilevatori possono essere facilmente ingannati con relativamente pochi esempi, portando a un significativo calo delle prestazioni di rilevamento. Ciò evidenzia l'importanza di migliorare i metodi di rilevamento e renderli robusti rispetto a testi in dominio non visti.
English
Recent advancements in Generative AI and Large Language Models (LLMs) have
enabled the creation of highly realistic synthetic content, raising concerns
about the potential for malicious use, such as misinformation and manipulation.
Moreover, detecting Machine-Generated Text (MGT) remains challenging due to the
lack of robust benchmarks that assess generalization to real-world scenarios.
In this work, we present a pipeline to test the resilience of state-of-the-art
MGT detectors (e.g., Mage, Radar, LLM-DetectAIve) to linguistically informed
adversarial attacks. To challenge the detectors, we fine-tune language models
using Direct Preference Optimization (DPO) to shift the MGT style toward
human-written text (HWT). This exploits the detectors' reliance on stylistic
clues, making new generations more challenging to detect. Additionally, we
analyze the linguistic shifts induced by the alignment and which features are
used by detectors to detect MGT texts. Our results show that detectors can be
easily fooled with relatively few examples, resulting in a significant drop in
detection performance. This highlights the importance of improving detection
methods and making them robust to unseen in-domain texts.