StyleRemix: Интерпретируемое сокрытие авторства через дистилляцию и возмущение стилевых элементов
StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements
August 28, 2024
Авторы: Jillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi
cs.AI
Аннотация
Сокрытие авторства, то есть переписывание текста с целью намеренного скрытия личности автора, является важной, но сложной задачей. Современные методы, использующие большие языковые модели (LLMs), страдают от недостатка интерпретируемости и управляемости, часто игнорируя авторские стилистические особенности, что приводит к менее устойчивой производительности в целом.
Для решения этой проблемы мы разработали StyleRemix — адаптивный и интерпретируемый метод сокрытия, который изменяет конкретные, тонкие стилистические элементы исходного текста. StyleRemix использует предобученные модули Low Rank Adaptation (LoRA) для переписывания входного текста вдоль различных стилистических осей (например, формальность и длина), сохраняя при этом низкие вычислительные затраты. StyleRemix превосходит современные базовые методы и значительно более крупные LLMs в различных областях, что подтверждается как автоматической, так и человеческой оценкой.
Кроме того, мы публикуем AuthorMix — обширный набор из 30 тысяч высококачественных длинных текстов от 14 авторов и 4 областей, а также DiSC — параллельный корпус из 1500 текстов, охватывающих семь стилистических осей в 16 уникальных направлениях.
English
Authorship obfuscation, rewriting a text to intentionally obscure the
identity of the author, is an important but challenging task. Current methods
using large language models (LLMs) lack interpretability and controllability,
often ignoring author-specific stylistic features, resulting in less robust
performance overall.
To address this, we develop StyleRemix, an adaptive and interpretable
obfuscation method that perturbs specific, fine-grained style elements of the
original input text. StyleRemix uses pre-trained Low Rank Adaptation (LoRA)
modules to rewrite an input specifically along various stylistic axes (e.g.,
formality and length) while maintaining low computational cost. StyleRemix
outperforms state-of-the-art baselines and much larger LLMs in a variety of
domains as assessed by both automatic and human evaluation.
Additionally, we release AuthorMix, a large set of 30K high-quality,
long-form texts from a diverse set of 14 authors and 4 domains, and DiSC, a
parallel corpus of 1,500 texts spanning seven style axes in 16 unique
directions