La Marca de Agua Degrada la Alineación en Modelos de Lenguaje: Análisis y Mitigación

Resumen

Las técnicas de marca de agua para modelos de lenguaje de gran escala (LLMs) pueden afectar significativamente la calidad de la salida, pero sus efectos sobre la veracidad, seguridad y utilidad siguen siendo críticamente poco examinados. Este artículo presenta un análisis sistemático de cómo dos enfoques populares de marca de agua—Gumbel y KGW—afectan estas propiedades fundamentales de alineación en cuatro LLMs alineados. Nuestros experimentos revelan dos patrones distintos de degradación: la atenuación de guardia, donde una mayor utilidad compromete la seguridad del modelo, y la amplificación de guardia, donde un exceso de precaución reduce la utilidad del modelo. Estos patrones surgen de cambios inducidos por la marca de agua en la distribución de tokens, evidenciando la tensión fundamental que existe entre los objetivos de alineación. Para mitigar estas degradaciones, proponemos el Remuestreo de Alineación (AR), un método de muestreo en tiempo de inferencia que utiliza un modelo de recompensa externo para restaurar la alineación. Establecemos un límite inferior teórico sobre la mejora en la puntuación de recompensa esperada a medida que se aumenta el tamaño de la muestra y demostramos empíricamente que muestrear solo 2-4 generaciones con marca de agua recupera o supera efectivamente las puntuaciones de alineación de referencia (sin marca de agua). Para superar la limitada diversidad de respuestas de la marca de agua Gumbel estándar, nuestra implementación modificada sacrifica la estricta ausencia de distorsión mientras mantiene una detección robusta, asegurando la compatibilidad con AR. Los resultados experimentales confirman que AR recupera con éxito la alineación de referencia en ambos enfoques de marca de agua, manteniendo una fuerte detectabilidad de la marca de agua. Este trabajo revela el equilibrio crítico entre la fuerza de la marca de agua y la alineación del modelo, proporcionando una solución simple en tiempo de inferencia para implementar de manera responsable LLMs con marca de agua en la práctica.

English

Watermarking techniques for large language models (LLMs) can significantly impact output quality, yet their effects on truthfulness, safety, and helpfulness remain critically underexamined. This paper presents a systematic analysis of how two popular watermarking approaches-Gumbel and KGW-affect these core alignment properties across four aligned LLMs. Our experiments reveal two distinct degradation patterns: guard attenuation, where enhanced helpfulness undermines model safety, and guard amplification, where excessive caution reduces model helpfulness. These patterns emerge from watermark-induced shifts in token distribution, surfacing the fundamental tension that exists between alignment objectives. To mitigate these degradations, we propose Alignment Resampling (AR), an inference-time sampling method that uses an external reward model to restore alignment. We establish a theoretical lower bound on the improvement in expected reward score as the sample size is increased and empirically demonstrate that sampling just 2-4 watermarked generations effectively recovers or surpasses baseline (unwatermarked) alignment scores. To overcome the limited response diversity of standard Gumbel watermarking, our modified implementation sacrifices strict distortion-freeness while maintaining robust detectability, ensuring compatibility with AR. Experimental results confirm that AR successfully recovers baseline alignment in both watermarking approaches, while maintaining strong watermark detectability. This work reveals the critical balance between watermark strength and model alignment, providing a simple inference-time solution to responsibly deploy watermarked LLMs in practice.

La Marca de Agua Degrada la Alineación en Modelos de Lenguaje: Análisis y Mitigación

Watermarking Degrades Alignment in Language Models: Analysis and Mitigation

Resumen

Support