StyleRemix: Ofuscação de Autoria Interpretável por meio de Destilação e Perturbação de Elementos de Estilo
StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements
August 28, 2024
Autores: Jillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi
cs.AI
Resumo
A ofuscação de autoria, que consiste em reescrever um texto para obscurecer intencionalmente a identidade do autor, é uma tarefa importante mas desafiadora. Os métodos atuais que utilizam modelos de linguagem de grande escala (LLMs) carecem de interpretabilidade e controlabilidade, frequentemente ignorando características estilísticas específicas do autor, resultando num desempenho global menos robusto.
Para resolver esta limitação, desenvolvemos o StyleRemix, um método de ofuscação adaptável e interpretável que perturba elementos estilísticos específicos e de granularidade fina do texto de entrada original. O StyleRemix utiliza módulos de Adaptação de Baixo *Rank* (LoRA) pré-treinados para reescrever uma entrada especificamente ao longo de vários eixos estilísticos (por exemplo, formalidade e extensão), mantendo um baixo custo computacional. O StyleRemix supera os métodos de referência do estado da arte e LLMs muito maiores numa variedade de domínios, conforme avaliado por métricas automáticas e avaliação humana.
Adicionalmente, disponibilizamos o AuthorMix, um extenso conjunto de 30 mil textos longos e de alta qualidade de um grupo diversificado de 14 autores e 4 domínios, e o DiSC, um corpus paralelo de 1.500 textos que abrange sete eixos estilísticos em 16 direções únicas.
English
Authorship obfuscation, rewriting a text to intentionally obscure the
identity of the author, is an important but challenging task. Current methods
using large language models (LLMs) lack interpretability and controllability,
often ignoring author-specific stylistic features, resulting in less robust
performance overall.
To address this, we develop StyleRemix, an adaptive and interpretable
obfuscation method that perturbs specific, fine-grained style elements of the
original input text. StyleRemix uses pre-trained Low Rank Adaptation (LoRA)
modules to rewrite an input specifically along various stylistic axes (e.g.,
formality and length) while maintaining low computational cost. StyleRemix
outperforms state-of-the-art baselines and much larger LLMs in a variety of
domains as assessed by both automatic and human evaluation.
Additionally, we release AuthorMix, a large set of 30K high-quality,
long-form texts from a diverse set of 14 authors and 4 domains, and DiSC, a
parallel corpus of 1,500 texts spanning seven style axes in 16 unique
directions