PASA: Ein prinzipienbasierter Einbettungsraum-Wasserzeichenansatz für LLM-generierten Text unter semantisch-invarianten Angriffen

Zusammenfassung

Wasserzeichenverfahren für große Sprachmodelle (LLMs) sind ein vielversprechender Ansatz zur Erkennung von LLM-generiertem Text und ermöglichen einen verantwortungsvollen Einsatz. Allerdings sind bestehende Methoden oft anfällig für semantikinvariante Angriffe wie Paraphrasierung. Wir präsentieren PASA, einen prinzipientreuen, robusten und verzerrungsfreien Wasserzeichenalgorithmus, der ein Wasserzeichen auf semantischer Ebene einbettet und erkennt. PASA operiert auf semantischen Clustern in einem latenten Einbettungsraum und konstruiert eine Verteilungsabhängigkeit zwischen Token- und Hilfssequenzen mittels gemeinsamer Zufälligkeit, die über einen geheimen Schlüssel und den semantischen Verlauf synchronisiert wird. Dieses Design gründet auf unserem theoretischen Rahmen, der ein gemeinsam optimales Einbettungs-Erkennungs-Paar charakterisiert und die grundlegenden Zielkonflikte zwischen Erkennungsgenauigkeit, Robustheit und Verzerrung erreicht. Auswertungen über mehrere LLMs und semantikinvariante Angriffe hinweg zeigen, dass PASA selbst unter starken Paraphrasierungsangriffen robust bleibt und gleichzeitig eine hohe Textqualität bewahrt, wobei es Standardverfahren auf Wortschatzebene übertrifft. Ablationsstudien bestätigen zusätzlich die Wirksamkeit unserer Hyperparameter-Wahl. Webseite: https://ai-kunkun.github.io/PASA_page/.

English

Watermarking for large language models (LLMs) is a promising approach for detecting LLM-generated text and enabling responsible deployment. However, existing watermarking methods are often vulnerable to semantic-invariant attacks, such as paraphrasing. We propose PASA, a principled, robust, and distortion-free watermarking algorithm that embeds and detects a watermark at the semantic level. PASA operates on semantic clusters in a latent embedding space and constructs a distributional dependency between token and auxiliary sequences via shared randomness synchronized by a secret key and semantic history. This design is grounded in our theoretical framework that characterizes a jointly optimal embedding-detection pair, achieving the fundamental trade-offs among detection accuracy, robustness, and distortion. Evaluations across multiple LLMs and semantic-invariant attacks demonstrate that PASA remains robust even under strong paraphrasing attacks while preserving high text quality, outperforming standard vocabulary-space baselines. Ablation studies further validate the effectiveness of our hyperparameter choices. Webpage: https://ai-kunkun.github.io/PASA_page/.

PASA: Ein prinzipienbasierter Einbettungsraum-Wasserzeichenansatz für LLM-generierten Text unter semantisch-invarianten Angriffen

PASA: A Principled Embedding-Space Watermarking Approach for LLM-Generated Text under Semantic-Invariant Attacks

Zusammenfassung

Support