ChatPaper.aiChatPaper

Водяные знаки ухудшают выравнивание в языковых моделях: анализ и методы устранения

Watermarking Degrades Alignment in Language Models: Analysis and Mitigation

June 4, 2025
Авторы: Apurv Verma, NhatHai Phan, Shubhendu Trivedi
cs.AI

Аннотация

Методы внедрения водяных знаков в крупные языковые модели (LLM) могут существенно влиять на качество их выходных данных, однако их воздействие на правдивость, безопасность и полезность остается недостаточно изученным. В данной статье представлен систематический анализ того, как два популярных подхода к внедрению водяных знаков — Gumbel и KGW — влияют на эти ключевые свойства согласованности в четырех согласованных LLM. Наши эксперименты выявили два различных паттерна деградации: ослабление защиты, при котором повышенная полезность подрывает безопасность модели, и усиление защиты, при котором излишняя осторожность снижает полезность модели. Эти паттерны возникают из-за изменений в распределении токенов, вызванных водяными знаками, что подчеркивает фундаментальное противоречие между целями согласованности. Для смягчения этих деградаций мы предлагаем метод повторной выборки для согласованности (Alignment Resampling, AR), который использует внешнюю модель вознаграждения для восстановления согласованности на этапе вывода. Мы устанавливаем теоретическую нижнюю границу улучшения ожидаемого показателя вознаграждения при увеличении размера выборки и эмпирически демонстрируем, что выборка всего 2-4 поколений с водяными знаками эффективно восстанавливает или превосходит базовые (без водяных знаков) показатели согласованности. Чтобы преодолеть ограниченное разнообразие ответов в стандартном методе Gumbel, наша модифицированная реализация жертвует строгой свободой от искажений, сохраняя при этом надежную обнаруживаемость, что обеспечивает совместимость с AR. Экспериментальные результаты подтверждают, что AR успешно восстанавливает базовую согласованность в обоих подходах к внедрению водяных знаков, сохраняя при этом высокую обнаруживаемость водяных знаков. Эта работа раскрывает критический баланс между силой водяных знаков и согласованностью модели, предлагая простое решение на этапе вывода для ответственного использования LLM с водяными знаками на практике.
English
Watermarking techniques for large language models (LLMs) can significantly impact output quality, yet their effects on truthfulness, safety, and helpfulness remain critically underexamined. This paper presents a systematic analysis of how two popular watermarking approaches-Gumbel and KGW-affect these core alignment properties across four aligned LLMs. Our experiments reveal two distinct degradation patterns: guard attenuation, where enhanced helpfulness undermines model safety, and guard amplification, where excessive caution reduces model helpfulness. These patterns emerge from watermark-induced shifts in token distribution, surfacing the fundamental tension that exists between alignment objectives. To mitigate these degradations, we propose Alignment Resampling (AR), an inference-time sampling method that uses an external reward model to restore alignment. We establish a theoretical lower bound on the improvement in expected reward score as the sample size is increased and empirically demonstrate that sampling just 2-4 watermarked generations effectively recovers or surpasses baseline (unwatermarked) alignment scores. To overcome the limited response diversity of standard Gumbel watermarking, our modified implementation sacrifices strict distortion-freeness while maintaining robust detectability, ensuring compatibility with AR. Experimental results confirm that AR successfully recovers baseline alignment in both watermarking approaches, while maintaining strong watermark detectability. This work reveals the critical balance between watermark strength and model alignment, providing a simple inference-time solution to responsibly deploy watermarked LLMs in practice.
PDF21June 6, 2025