Wasserzeichen beeinträchtigen die Ausrichtung von Sprachmodellen: Analyse und Gegenmaßnahmen
Watermarking Degrades Alignment in Language Models: Analysis and Mitigation
June 4, 2025
Autoren: Apurv Verma, NhatHai Phan, Shubhendu Trivedi
cs.AI
Zusammenfassung
Wasserzeichen-Techniken für große Sprachmodelle (LLMs) können die Ausgabequalität erheblich beeinflussen, doch ihre Auswirkungen auf Wahrhaftigkeit, Sicherheit und Hilfsbereitschaft bleiben kritisch untererforscht. Diese Arbeit präsentiert eine systematische Analyse, wie zwei populäre Wasserzeichen-Ansätze – Gumbel und KGW – diese zentralen Ausrichtungsmerkmale bei vier ausgerichteten LLMs beeinflussen. Unsere Experimente zeigen zwei unterschiedliche Verschlechterungsmuster: die Abschwächung von Schutzmechanismen, bei der eine verbesserte Hilfsbereitschaft die Modellsicherheit untergräbt, und die Verstärkung von Schutzmechanismen, bei der übermäßige Vorsicht die Hilfsbereitschaft des Modells reduziert. Diese Muster entstehen durch wasserzeichenbedingte Verschiebungen in der Token-Verteilung und verdeutlichen die grundlegende Spannung, die zwischen den Ausrichtungszielen besteht.
Um diese Verschlechterungen zu mildern, schlagen wir Alignment Resampling (AR) vor, eine Inferenzzeit-Sampling-Methode, die ein externes Belohnungsmodell verwendet, um die Ausrichtung wiederherzustellen. Wir legen eine theoretische Untergrenze für die Verbesserung des erwarteten Belohnungswerts fest, wenn die Stichprobengröße erhöht wird, und zeigen empirisch, dass das Sampling von nur 2-4 wasserzeichenmarkierten Generationen die Basislinie (unmarkierte) Ausrichtungswerte effektiv wiederherstellt oder übertrifft. Um die begrenzte Antwortvielfalt des standardmäßigen Gumbel-Wasserzeichens zu überwinden, opfert unsere modifizierte Implementierung die strikte Verzerrungsfreiheit, behält jedoch eine robuste Erkennbarkeit bei und gewährleistet so die Kompatibilität mit AR. Experimentelle Ergebnisse bestätigen, dass AR die Basislinienausrichtung bei beiden Wasserzeichen-Ansätzen erfolgreich wiederherstellt, während eine starke Wasserzeichen-Erkennbarkeit erhalten bleibt. Diese Arbeit offenbart das kritische Gleichgewicht zwischen der Stärke des Wasserzeichens und der Modellausrichtung und bietet eine einfache Inferenzzeit-Lösung, um wasserzeichenmarkierte LLMs verantwortungsvoll in der Praxis einzusetzen.
English
Watermarking techniques for large language models (LLMs) can significantly
impact output quality, yet their effects on truthfulness, safety, and
helpfulness remain critically underexamined. This paper presents a systematic
analysis of how two popular watermarking approaches-Gumbel and KGW-affect these
core alignment properties across four aligned LLMs. Our experiments reveal two
distinct degradation patterns: guard attenuation, where enhanced helpfulness
undermines model safety, and guard amplification, where excessive caution
reduces model helpfulness. These patterns emerge from watermark-induced shifts
in token distribution, surfacing the fundamental tension that exists between
alignment objectives.
To mitigate these degradations, we propose Alignment Resampling (AR), an
inference-time sampling method that uses an external reward model to restore
alignment. We establish a theoretical lower bound on the improvement in
expected reward score as the sample size is increased and empirically
demonstrate that sampling just 2-4 watermarked generations effectively recovers
or surpasses baseline (unwatermarked) alignment scores. To overcome the limited
response diversity of standard Gumbel watermarking, our modified implementation
sacrifices strict distortion-freeness while maintaining robust detectability,
ensuring compatibility with AR. Experimental results confirm that AR
successfully recovers baseline alignment in both watermarking approaches, while
maintaining strong watermark detectability. This work reveals the critical
balance between watermark strength and model alignment, providing a simple
inference-time solution to responsibly deploy watermarked LLMs in practice.