StyleRemix: Ofuscación de autoría interpretable mediante destilación y perturbación de elementos de estilo
StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements
August 28, 2024
Autores: Jillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi
cs.AI
Resumen
La ofuscación de autoría, que consiste en reescribir un texto para ocultar intencionalmente la identidad del autor, es una tarea importante pero desafiante. Los métodos actuales que utilizan modelos de lenguaje de gran escala (LLMs) carecen de interpretabilidad y controlabilidad, a menudo ignorando las características estilísticas específicas del autor, lo que resulta en un rendimiento general menos robusto.
Para abordar este problema, desarrollamos StyleRemix, un método de ofuscación adaptable e interpretable que perturba elementos estilísticos específicos y detallados del texto original. StyleRemix utiliza módulos preentrenados de Adaptación de Bajo Rango (LoRA) para reescribir un texto a lo largo de varios ejes estilísticos (por ejemplo, formalidad y longitud) manteniendo un bajo costo computacional. StyleRemix supera a los métodos de referencia más avanzados y a LLMs mucho más grandes en una variedad de dominios, según evaluaciones tanto automáticas como humanas.
Además, publicamos AuthorMix, un conjunto extenso de 30K textos de alta calidad y formato largo de un grupo diverso de 14 autores y 4 dominios, y DiSC, un corpus paralelo de 1,500 textos que abarcan siete ejes estilísticos en 16 direcciones únicas.
English
Authorship obfuscation, rewriting a text to intentionally obscure the
identity of the author, is an important but challenging task. Current methods
using large language models (LLMs) lack interpretability and controllability,
often ignoring author-specific stylistic features, resulting in less robust
performance overall.
To address this, we develop StyleRemix, an adaptive and interpretable
obfuscation method that perturbs specific, fine-grained style elements of the
original input text. StyleRemix uses pre-trained Low Rank Adaptation (LoRA)
modules to rewrite an input specifically along various stylistic axes (e.g.,
formality and length) while maintaining low computational cost. StyleRemix
outperforms state-of-the-art baselines and much larger LLMs in a variety of
domains as assessed by both automatic and human evaluation.
Additionally, we release AuthorMix, a large set of 30K high-quality,
long-form texts from a diverse set of 14 authors and 4 domains, and DiSC, a
parallel corpus of 1,500 texts spanning seven style axes in 16 unique
directions