StyleRemix: 스타일 요소의 증류와 변형을 통한 해석 가능한 저자 익명화
StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements
August 28, 2024
저자: Jillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi
cs.AI
초록
작가 익명화, 즉 텍스트를 재작성하여 의도적으로 작가의 정체성을 숨기는 작업은 중요하지만 어려운 과제입니다. 현재 대형 언어 모델(LLM)을 사용한 방법들은 해석 가능성과 제어 가능성이 부족하며, 종종 작가 특유의 스타일적 특징을 무시하여 전반적으로 덜 견고한 성능을 보입니다.
이 문제를 해결하기 위해, 우리는 원본 입력 텍스트의 구체적이고 세밀한 스타일 요소를 교란하는 적응적이고 해석 가능한 익명화 방법인 StyleRemix를 개발했습니다. StyleRemix는 사전 훈련된 Low Rank Adaptation (LoRA) 모듈을 사용하여 입력 텍스트를 다양한 스타일 축(예: 형식성과 길이)을 따라 재작성하면서도 낮은 계산 비용을 유지합니다. StyleRemix는 자동 및 인간 평가를 통해 다양한 도메인에서 최신 베이스라인과 훨씬 더 큰 LLM을 능가하는 성능을 보입니다.
또한, 우리는 14명의 다양한 작가와 4개의 도메인에서 수집된 30,000개의 고품질 장문 텍스트로 구성된 대규모 데이터셋인 AuthorMix와, 7개의 스타일 축을 16개의 독특한 방향으로 아우르는 1,500개의 텍스트로 구성된 병렬 코퍼스인 DiSC를 공개합니다.
English
Authorship obfuscation, rewriting a text to intentionally obscure the
identity of the author, is an important but challenging task. Current methods
using large language models (LLMs) lack interpretability and controllability,
often ignoring author-specific stylistic features, resulting in less robust
performance overall.
To address this, we develop StyleRemix, an adaptive and interpretable
obfuscation method that perturbs specific, fine-grained style elements of the
original input text. StyleRemix uses pre-trained Low Rank Adaptation (LoRA)
modules to rewrite an input specifically along various stylistic axes (e.g.,
formality and length) while maintaining low computational cost. StyleRemix
outperforms state-of-the-art baselines and much larger LLMs in a variety of
domains as assessed by both automatic and human evaluation.
Additionally, we release AuthorMix, a large set of 30K high-quality,
long-form texts from a diverse set of 14 authors and 4 domains, and DiSC, a
parallel corpus of 1,500 texts spanning seven style axes in 16 unique
directions