StyleRemix: スタイル要素の蒸留と摂動による解釈可能な著者匿名化
StyleRemix: Interpretable Authorship Obfuscation via Distillation and Perturbation of Style Elements
August 28, 2024
著者: Jillian Fisher, Skyler Hallinan, Ximing Lu, Mitchell Gordon, Zaid Harchaoui, Yejin Choi
cs.AI
要旨
著者性隠蔽(Authorship Obfuscation)とは、テキストを書き換えて意図的に著者の身元を曖昧にする重要な課題であるが、同時に困難なタスクでもある。現在の大規模言語モデル(LLMs)を用いた手法は、解釈可能性と制御性に欠け、著者固有のスタイル的特徴を無視することが多く、全体的に堅牢性が低い結果となっている。
この課題に対処するため、我々は **StyleRemix** を開発した。これは、元の入力テキストの特定の細かいスタイル要素を変更する、適応的で解釈可能な隠蔽手法である。StyleRemixは、事前学習された低ランク適応(LoRA)モジュールを使用し、計算コストを抑えつつ、様々なスタイル軸(例:形式性や長さ)に沿って入力を書き換える。StyleRemixは、自動評価と人間評価の両方において、最先端のベースラインやはるかに大規模なLLMsを様々なドメインで上回る性能を示した。
さらに、我々は **AuthorMix** を公開した。これは、14人の多様な著者と4つのドメインからなる3万件の高品質な長文テキストの大規模なデータセットである。また、**DiSC** という並列コーパスも提供する。これは、7つのスタイル軸に沿った16のユニークな方向にわたる1,500件のテキストを含むものである。
English
Authorship obfuscation, rewriting a text to intentionally obscure the
identity of the author, is an important but challenging task. Current methods
using large language models (LLMs) lack interpretability and controllability,
often ignoring author-specific stylistic features, resulting in less robust
performance overall.
To address this, we develop StyleRemix, an adaptive and interpretable
obfuscation method that perturbs specific, fine-grained style elements of the
original input text. StyleRemix uses pre-trained Low Rank Adaptation (LoRA)
modules to rewrite an input specifically along various stylistic axes (e.g.,
formality and length) while maintaining low computational cost. StyleRemix
outperforms state-of-the-art baselines and much larger LLMs in a variety of
domains as assessed by both automatic and human evaluation.
Additionally, we release AuthorMix, a large set of 30K high-quality,
long-form texts from a diverse set of 14 authors and 4 domains, and DiSC, a
parallel corpus of 1,500 texts spanning seven style axes in 16 unique
directions