StyleRemix: Offuscazione Interpretabile dell'Autorialità tramite Distillazione e Perturbazione di Elementi Stilistici
StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements
August 28, 2024
Autori: Jillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi
cs.AI
Abstract
L'offuscamento dell'autorialità, ovvero la riscrittura di un testo per oscurare intenzionalmente l'identità dell'autore, è un compito importante ma impegnativo. I metodi attuali che utilizzano grandi modelli linguistici (LLM) mancano di interpretabilità e controllabilità, ignorando spesso le caratteristiche stilistiche specifiche dell'autore, il che si traduce in prestazioni complessivamente meno robuste.
Per affrontare questo problema, sviluppiamo StyleRemix, un metodo di offuscamento adattivo e interpretabile che perturba elementi stilistici specifici e granulari del testo di input originale. StyleRemix utilizza moduli LoRA pre-addestrati per riscrivere un input specificamente lungo vari assi stilistici (ad esempio, formalità e lunghezza) mantenendo al contempo un basso costo computazionale. StyleRemix supera i baseline allo stato dell'arte e LLM molto più grandi in una varietà di domini, come valutato sia da valutazioni automatiche che umane.
Inoltre, rilasciamo AuthorMix, un ampio set di 30.000 testi di alta qualità e di forma lunga provenienti da un gruppo diversificato di 14 autori e 4 domini, e DiSC, un corpus parallelo di 1.500 testi che abbraccia sette assi stilistici in 16 direzioni uniche.
English
Authorship obfuscation, rewriting a text to intentionally obscure the
identity of the author, is an important but challenging task. Current methods
using large language models (LLMs) lack interpretability and controllability,
often ignoring author-specific stylistic features, resulting in less robust
performance overall.
To address this, we develop StyleRemix, an adaptive and interpretable
obfuscation method that perturbs specific, fine-grained style elements of the
original input text. StyleRemix uses pre-trained Low Rank Adaptation (LoRA)
modules to rewrite an input specifically along various stylistic axes (e.g.,
formality and length) while maintaining low computational cost. StyleRemix
outperforms state-of-the-art baselines and much larger LLMs in a variety of
domains as assessed by both automatic and human evaluation.
Additionally, we release AuthorMix, a large set of 30K high-quality,
long-form texts from a diverse set of 14 authors and 4 domains, and DiSC, a
parallel corpus of 1,500 texts spanning seven style axes in 16 unique
directions