Водяные знаки в авторегрессионной генерации изображений
Watermarking Autoregressive Image Generation
June 19, 2025
Авторы: Nikola Jovanović, Ismail Labiad, Tomáš Souček, Martin Vechev, Pierre Fernandez
cs.AI
Аннотация
Водяные знаки на выходных данных генеративных моделей стали перспективным подходом для отслеживания их происхождения. Несмотря на значительный интерес к авторегрессионным моделям генерации изображений и их потенциальному злоупотреблению, до настоящего времени не было предпринято попыток внедрить водяные знаки на уровне токенов. В данной работе мы представляем первый подобный подход, адаптируя методы внедрения водяных знаков для языковых моделей к этой задаче. Мы выявляем ключевую проблему: отсутствие обратной цикловой согласованности (RCC), при которой повторная токенизация сгенерированных изображений значительно изменяет последовательность токенов, фактически стирая водяной знак. Для решения этой проблемы и обеспечения устойчивости нашего метода к типичным преобразованиям изображений, нейронному сжатию и атакам на удаление, мы предлагаем (i) процедуру тонкой настройки токенизатора и детокенизатора, улучшающую RCC, и (ii) дополнительный слой синхронизации водяных знаков. Как показывают наши эксперименты, наш подход позволяет надежно и устойчиво обнаруживать водяные знаки с теоретически обоснованными p-значениями.
English
Watermarking the outputs of generative models has emerged as a promising
approach for tracking their provenance. Despite significant interest in
autoregressive image generation models and their potential for misuse, no prior
work has attempted to watermark their outputs at the token level. In this work,
we present the first such approach by adapting language model watermarking
techniques to this setting. We identify a key challenge: the lack of reverse
cycle-consistency (RCC), wherein re-tokenizing generated image tokens
significantly alters the token sequence, effectively erasing the watermark. To
address this and to make our method robust to common image transformations,
neural compression, and removal attacks, we introduce (i) a custom
tokenizer-detokenizer finetuning procedure that improves RCC, and (ii) a
complementary watermark synchronization layer. As our experiments demonstrate,
our approach enables reliable and robust watermark detection with theoretically
grounded p-values.