StyleRemix: Интерпретируемое сокрытие авторства через дистилляцию и возмущение стилевых элементов

Аннотация

Сокрытие авторства, то есть переписывание текста с целью намеренного скрытия личности автора, является важной, но сложной задачей. Современные методы, использующие большие языковые модели (LLMs), страдают от недостатка интерпретируемости и управляемости, часто игнорируя авторские стилистические особенности, что приводит к менее устойчивой производительности в целом. Для решения этой проблемы мы разработали StyleRemix — адаптивный и интерпретируемый метод сокрытия, который изменяет конкретные, тонкие стилистические элементы исходного текста. StyleRemix использует предобученные модули Low Rank Adaptation (LoRA) для переписывания входного текста вдоль различных стилистических осей (например, формальность и длина), сохраняя при этом низкие вычислительные затраты. StyleRemix превосходит современные базовые методы и значительно более крупные LLMs в различных областях, что подтверждается как автоматической, так и человеческой оценкой. Кроме того, мы публикуем AuthorMix — обширный набор из 30 тысяч высококачественных длинных текстов от 14 авторов и 4 областей, а также DiSC — параллельный корпус из 1500 текстов, охватывающих семь стилистических осей в 16 уникальных направлениях.

English

Authorship obfuscation, rewriting a text to intentionally obscure the identity of the author, is an important but challenging task. Current methods using large language models (LLMs) lack interpretability and controllability, often ignoring author-specific stylistic features, resulting in less robust performance overall. To address this, we develop StyleRemix, an adaptive and interpretable obfuscation method that perturbs specific, fine-grained style elements of the original input text. StyleRemix uses pre-trained Low Rank Adaptation (LoRA) modules to rewrite an input specifically along various stylistic axes (e.g., formality and length) while maintaining low computational cost. StyleRemix outperforms state-of-the-art baselines and much larger LLMs in a variety of domains as assessed by both automatic and human evaluation. Additionally, we release AuthorMix, a large set of 30K high-quality, long-form texts from a diverse set of 14 authors and 4 domains, and DiSC, a parallel corpus of 1,500 texts spanning seven style axes in 16 unique directions

StyleRemix: Интерпретируемое сокрытие авторства через дистилляцию и возмущение стилевых элементов

StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements

Аннотация

Support