La Marca de Agua Degrada la Alineación en Modelos de Lenguaje: Análisis y Mitigación
Watermarking Degrades Alignment in Language Models: Analysis and Mitigation
June 4, 2025
Autores: Apurv Verma, NhatHai Phan, Shubhendu Trivedi
cs.AI
Resumen
Las técnicas de marca de agua para modelos de lenguaje de gran escala (LLMs) pueden afectar significativamente la calidad de la salida, pero sus efectos sobre la veracidad, seguridad y utilidad siguen siendo críticamente poco examinados. Este artículo presenta un análisis sistemático de cómo dos enfoques populares de marca de agua—Gumbel y KGW—afectan estas propiedades fundamentales de alineación en cuatro LLMs alineados. Nuestros experimentos revelan dos patrones distintos de degradación: la atenuación de guardia, donde una mayor utilidad compromete la seguridad del modelo, y la amplificación de guardia, donde un exceso de precaución reduce la utilidad del modelo. Estos patrones surgen de cambios inducidos por la marca de agua en la distribución de tokens, evidenciando la tensión fundamental que existe entre los objetivos de alineación.
Para mitigar estas degradaciones, proponemos el Remuestreo de Alineación (AR), un método de muestreo en tiempo de inferencia que utiliza un modelo de recompensa externo para restaurar la alineación. Establecemos un límite inferior teórico sobre la mejora en la puntuación de recompensa esperada a medida que se aumenta el tamaño de la muestra y demostramos empíricamente que muestrear solo 2-4 generaciones con marca de agua recupera o supera efectivamente las puntuaciones de alineación de referencia (sin marca de agua). Para superar la limitada diversidad de respuestas de la marca de agua Gumbel estándar, nuestra implementación modificada sacrifica la estricta ausencia de distorsión mientras mantiene una detección robusta, asegurando la compatibilidad con AR. Los resultados experimentales confirman que AR recupera con éxito la alineación de referencia en ambos enfoques de marca de agua, manteniendo una fuerte detectabilidad de la marca de agua. Este trabajo revela el equilibrio crítico entre la fuerza de la marca de agua y la alineación del modelo, proporcionando una solución simple en tiempo de inferencia para implementar de manera responsable LLMs con marca de agua en la práctica.
English
Watermarking techniques for large language models (LLMs) can significantly
impact output quality, yet their effects on truthfulness, safety, and
helpfulness remain critically underexamined. This paper presents a systematic
analysis of how two popular watermarking approaches-Gumbel and KGW-affect these
core alignment properties across four aligned LLMs. Our experiments reveal two
distinct degradation patterns: guard attenuation, where enhanced helpfulness
undermines model safety, and guard amplification, where excessive caution
reduces model helpfulness. These patterns emerge from watermark-induced shifts
in token distribution, surfacing the fundamental tension that exists between
alignment objectives.
To mitigate these degradations, we propose Alignment Resampling (AR), an
inference-time sampling method that uses an external reward model to restore
alignment. We establish a theoretical lower bound on the improvement in
expected reward score as the sample size is increased and empirically
demonstrate that sampling just 2-4 watermarked generations effectively recovers
or surpasses baseline (unwatermarked) alignment scores. To overcome the limited
response diversity of standard Gumbel watermarking, our modified implementation
sacrifices strict distortion-freeness while maintaining robust detectability,
ensuring compatibility with AR. Experimental results confirm that AR
successfully recovers baseline alignment in both watermarking approaches, while
maintaining strong watermark detectability. This work reveals the critical
balance between watermark strength and model alignment, providing a simple
inference-time solution to responsibly deploy watermarked LLMs in practice.