StyleRemix: Interpreteerbare Auteursverhulling via Destillatie en Perturbatie van Stijlelementen
StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements
August 28, 2024
Auteurs: Jillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi
cs.AI
Samenvatting
Auteursverhulling, het herschrijven van een tekst om de identiteit van de auteur opzettelijk te verbergen, is een belangrijke maar uitdagende taak. Huidige methoden die gebruikmaken van large language models (LLM's) missen interpreteerbaarheid en bestuurbaarheid, waarbij vaak auteurspecifieke stilistische kenmerken worden genegeerd, wat resulteert in een minder robuuste algehele prestatie.
Om dit aan te pakken, ontwikkelen we StyleRemix, een adaptieve en interpreteerbare verhullingsmethode die specifieke, fijnmazige stijlelementen van de originele invoertekst verstoort. StyleRemix gebruikt vooraf getrainde Low Rank Adaptation (LoRA)-modules om een invoer specifiek langs verschillende stilistische assen (bijvoorbeeld formaliteit en lengte) te herschrijven, waarbij de rekencapaciteit laag blijft. StyleRemix presteert beter dan state-of-the-art vergelijkingsmethoden en aanzienlijk grotere LLM's in een verscheidenheid aan domeinen, zoals beoordeeld door zowel automatische als menselijke evaluatie.
Daarnaast brengen we AuthorMix uit, een grote set van 30.000 hoogwaardige, langere teksten van een diverse groep van 14 auteurs en 4 domeinen, en DiSC, een parallel corpus van 1.500 teksten die zeven stijlassen in 16 unieke richtingen omvatten.
English
Authorship obfuscation, rewriting a text to intentionally obscure the
identity of the author, is an important but challenging task. Current methods
using large language models (LLMs) lack interpretability and controllability,
often ignoring author-specific stylistic features, resulting in less robust
performance overall.
To address this, we develop StyleRemix, an adaptive and interpretable
obfuscation method that perturbs specific, fine-grained style elements of the
original input text. StyleRemix uses pre-trained Low Rank Adaptation (LoRA)
modules to rewrite an input specifically along various stylistic axes (e.g.,
formality and length) while maintaining low computational cost. StyleRemix
outperforms state-of-the-art baselines and much larger LLMs in a variety of
domains as assessed by both automatic and human evaluation.
Additionally, we release AuthorMix, a large set of 30K high-quality,
long-form texts from a diverse set of 14 authors and 4 domains, and DiSC, a
parallel corpus of 1,500 texts spanning seven style axes in 16 unique
directions