ChatPaper.aiChatPaper

StyleRemix : Obfuscation interprétable de l’auteur par distillation et perturbation d’éléments stylistiques

StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements

August 28, 2024
papers.authors: Jillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi
cs.AI

papers.abstract

L'obscurcissement de la paternité, qui consiste à réécrire un texte pour dissimuler intentionnellement l'identité de son auteur, est une tâche importante mais difficile. Les méthodes actuelles utilisant les grands modèles de langage (LLM) manquent d'interprétabilité et de contrôlabilité, ignorant souvent les caractéristiques stylistiques spécifiques à l'auteur, ce qui entraîne des performances globales moins robustes. Pour remédier à cela, nous développons StyleRemix, une méthode d'obscurcissement adaptative et interprétable qui perturbe des éléments stylistiques spécifiques et granulaires du texte source. StyleRemix utilise des modules de LoRA (Low Rank Adaptation) pré-entraînés pour réécrire un texte d'entrée spécifiquement selon différents axes stylistiques (par exemple, le formalisme et la longueur) tout en maintenant un faible coût computationnel. StyleRemix surpasse les méthodes de référence de l'état de l'art et des LLM bien plus grands dans divers domaines, selon des évaluations automatiques et humaines. De plus, nous publions AuthorMix, un vaste ensemble de 30 000 textes longs et de haute qualité provenant d'un panel diversifié de 14 auteurs et 4 domaines, ainsi que DiSC, un corpus parallèle de 1 500 textes couvrant sept axes stylistiques selon 16 directions uniques.
English
Authorship obfuscation, rewriting a text to intentionally obscure the identity of the author, is an important but challenging task. Current methods using large language models (LLMs) lack interpretability and controllability, often ignoring author-specific stylistic features, resulting in less robust performance overall. To address this, we develop StyleRemix, an adaptive and interpretable obfuscation method that perturbs specific, fine-grained style elements of the original input text. StyleRemix uses pre-trained Low Rank Adaptation (LoRA) modules to rewrite an input specifically along various stylistic axes (e.g., formality and length) while maintaining low computational cost. StyleRemix outperforms state-of-the-art baselines and much larger LLMs in a variety of domains as assessed by both automatic and human evaluation. Additionally, we release AuthorMix, a large set of 30K high-quality, long-form texts from a diverse set of 14 authors and 4 domains, and DiSC, a parallel corpus of 1,500 texts spanning seven style axes in 16 unique directions
PDF114November 14, 2024