Авторегрессивное водяное знаковое изображение через лексическое смещение: подход, устойчивый к атакам регенерации
Autoregressive Images Watermarking through Lexical Biasing: An Approach Resistant to Regeneration Attack
June 1, 2025
Авторы: Siqi Hui, Yiren Song, Sanping Zhou, Ye Deng, Wenli Huang, Jinjun Wang
cs.AI
Аннотация
Авторегрессионные (AR) модели генерации изображений привлекают всё больше внимания благодаря своим прорывам в качестве синтеза, что подчеркивает необходимость внедрения надежных методов водяных знаков для предотвращения злоупотреблений. Однако существующие методы встраивания водяных знаков в процессе генерации в основном разработаны для диффузионных моделей, где водяные знаки внедряются в латентные состояния диффузии. Такой подход создает значительные трудности для прямого применения к AR-моделям, которые генерируют изображения последовательно через предсказание токенов. Более того, атаки на основе диффузионной регенерации могут эффективно удалять такие водяные знаки, искажая латентные состояния диффузии. Для решения этих проблем мы предлагаем Lexical Bias Watermarking (LBW) — новый фреймворк, разработанный для AR-моделей, который устойчив к атакам регенерации. LBW внедряет водяные знаки непосредственно в карты токенов, смещая выбор токенов в сторону предопределенного "зеленого списка" в процессе генерации. Этот подход обеспечивает бесшовную интеграцию с существующими AR-моделями и естественным образом распространяется на постобработку водяных знаков. Для повышения безопасности против атак с белым ящиком вместо использования одного "зеленого списка" для каждого изображения случайным образом выбирается список из пула "зеленых списков". Обнаружение водяного знака выполняется с помощью квантования и статистического анализа распределения токенов. Многочисленные эксперименты демонстрируют, что LBW обеспечивает превосходную устойчивость водяных знаков, особенно к атакам регенерации.
English
Autoregressive (AR) image generation models have gained increasing attention
for their breakthroughs in synthesis quality, highlighting the need for robust
watermarking to prevent misuse. However, existing in-generation watermarking
techniques are primarily designed for diffusion models, where watermarks are
embedded within diffusion latent states. This design poses significant
challenges for direct adaptation to AR models, which generate images
sequentially through token prediction. Moreover, diffusion-based regeneration
attacks can effectively erase such watermarks by perturbing diffusion latent
states. To address these challenges, we propose Lexical Bias Watermarking
(LBW), a novel framework designed for AR models that resists regeneration
attacks. LBW embeds watermarks directly into token maps by biasing token
selection toward a predefined green list during generation. This approach
ensures seamless integration with existing AR models and extends naturally to
post-hoc watermarking. To increase the security against white-box attacks,
instead of using a single green list, the green list for each image is randomly
sampled from a pool of green lists. Watermark detection is performed via
quantization and statistical analysis of the token distribution. Extensive
experiments demonstrate that LBW achieves superior watermark robustness,
particularly in resisting regeneration attacks.