Marcado de Agua en Imágenes Autoregresivas mediante Sesgo Léxico: Un Enfoque Resistente a Ataques de Regeneración
Autoregressive Images Watermarking through Lexical Biasing: An Approach Resistant to Regeneration Attack
June 1, 2025
Autores: Siqi Hui, Yiren Song, Sanping Zhou, Ye Deng, Wenli Huang, Jinjun Wang
cs.AI
Resumen
Los modelos de generación de imágenes autorregresivos (AR) han ganado creciente atención debido a sus avances en la calidad de síntesis, lo que resalta la necesidad de técnicas robustas de marcado de agua para prevenir su mal uso. Sin embargo, las técnicas de marcado de agua durante la generación existentes están principalmente diseñadas para modelos de difusión, donde las marcas de agua se incrustan en los estados latentes de difusión. Este diseño presenta desafíos significativos para su adaptación directa a los modelos AR, que generan imágenes de manera secuencial mediante la predicción de tokens. Además, los ataques de regeneración basados en difusión pueden eliminar eficazmente dichas marcas de agua al perturbar los estados latentes de difusión. Para abordar estos desafíos, proponemos el Marcado de Agua con Sesgo Léxico (LBW, por sus siglas en inglés), un marco novedoso diseñado para modelos AR que resiste los ataques de regeneración. LBW incrusta marcas de agua directamente en los mapas de tokens al sesgar la selección de tokens hacia una lista verde predefinida durante la generación. Este enfoque garantiza una integración fluida con los modelos AR existentes y se extiende naturalmente al marcado de agua posterior. Para aumentar la seguridad frente a ataques de caja blanca, en lugar de utilizar una única lista verde, la lista verde para cada imagen se selecciona aleatoriamente de un conjunto de listas verdes. La detección de la marca de agua se realiza mediante cuantización y análisis estadístico de la distribución de tokens. Experimentos exhaustivos demuestran que LBW logra una robustez superior en el marcado de agua, especialmente al resistir ataques de regeneración.
English
Autoregressive (AR) image generation models have gained increasing attention
for their breakthroughs in synthesis quality, highlighting the need for robust
watermarking to prevent misuse. However, existing in-generation watermarking
techniques are primarily designed for diffusion models, where watermarks are
embedded within diffusion latent states. This design poses significant
challenges for direct adaptation to AR models, which generate images
sequentially through token prediction. Moreover, diffusion-based regeneration
attacks can effectively erase such watermarks by perturbing diffusion latent
states. To address these challenges, we propose Lexical Bias Watermarking
(LBW), a novel framework designed for AR models that resists regeneration
attacks. LBW embeds watermarks directly into token maps by biasing token
selection toward a predefined green list during generation. This approach
ensures seamless integration with existing AR models and extends naturally to
post-hoc watermarking. To increase the security against white-box attacks,
instead of using a single green list, the green list for each image is randomly
sampled from a pool of green lists. Watermark detection is performed via
quantization and statistical analysis of the token distribution. Extensive
experiments demonstrate that LBW achieves superior watermark robustness,
particularly in resisting regeneration attacks.