StyleRemix: Interpretierbare Autorschaftsverschleierung durch Destillation und Perturbation von Stilelementen
StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements
August 28, 2024
papers.authors: Jillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi
cs.AI
papers.abstract
Autorenverschleierung, das gezielte Umschreiben eines Textes, um die Identität des Autors zu verschleiern, ist eine wichtige, aber herausfordernde Aufgabe. Aktuelle Methoden, die große Sprachmodelle (LLMs) verwenden, mangelt es an Interpretierbarkeit und Steuerbarkeit, wobei häufig autorspezifische stilistische Merkmale ignoriert werden, was insgesamt zu einer weniger robusten Leistung führt.
Um dies zu beheben, entwickeln wir StyleRemix, eine adaptive und interpretierbare Verschleierungsmethode, die spezifische, feingranulare Stilelemente des ursprünglichen Eingabetexts verändert. StyleRemix nutzt vortrainierte Low-Rank-Adaptation-Module (LoRA), um einen Eingabetext gezielt entlang verschiedener stilistischer Achsen (z. B. Formalität und Länge) umzuschreiben, während die Rechenkosten gering bleiben. StyleRemix übertrifft sowohl in automatisierten als auch in menschlichen Bewertungen state-of-the-art Baselines und deutlich größere LLMs in einer Vielzahl von Domänen.
Zusätzlich veröffentlichen wir AuthorMix, einen umfangreichen Datensatz mit 30.000 hochwertigen, langen Texten von 14 verschiedenen Autoren aus 4 Domänen, sowie DiSC, ein paralleles Korpus von 1.500 Texten, die sieben stilistische Achsen in 16 einzigartigen Richtungen abdecken.
English
Authorship obfuscation, rewriting a text to intentionally obscure the
identity of the author, is an important but challenging task. Current methods
using large language models (LLMs) lack interpretability and controllability,
often ignoring author-specific stylistic features, resulting in less robust
performance overall.
To address this, we develop StyleRemix, an adaptive and interpretable
obfuscation method that perturbs specific, fine-grained style elements of the
original input text. StyleRemix uses pre-trained Low Rank Adaptation (LoRA)
modules to rewrite an input specifically along various stylistic axes (e.g.,
formality and length) while maintaining low computational cost. StyleRemix
outperforms state-of-the-art baselines and much larger LLMs in a variety of
domains as assessed by both automatic and human evaluation.
Additionally, we release AuthorMix, a large set of 30K high-quality,
long-form texts from a diverse set of 14 authors and 4 domains, and DiSC, a
parallel corpus of 1,500 texts spanning seven style axes in 16 unique
directions