Водяные знаки в авторегрессионной генерации изображений

Аннотация

Водяные знаки на выходных данных генеративных моделей стали перспективным подходом для отслеживания их происхождения. Несмотря на значительный интерес к авторегрессионным моделям генерации изображений и их потенциальному злоупотреблению, до настоящего времени не было предпринято попыток внедрить водяные знаки на уровне токенов. В данной работе мы представляем первый подобный подход, адаптируя методы внедрения водяных знаков для языковых моделей к этой задаче. Мы выявляем ключевую проблему: отсутствие обратной цикловой согласованности (RCC), при которой повторная токенизация сгенерированных изображений значительно изменяет последовательность токенов, фактически стирая водяной знак. Для решения этой проблемы и обеспечения устойчивости нашего метода к типичным преобразованиям изображений, нейронному сжатию и атакам на удаление, мы предлагаем (i) процедуру тонкой настройки токенизатора и детокенизатора, улучшающую RCC, и (ii) дополнительный слой синхронизации водяных знаков. Как показывают наши эксперименты, наш подход позволяет надежно и устойчиво обнаруживать водяные знаки с теоретически обоснованными p-значениями.

English

Watermarking the outputs of generative models has emerged as a promising approach for tracking their provenance. Despite significant interest in autoregressive image generation models and their potential for misuse, no prior work has attempted to watermark their outputs at the token level. In this work, we present the first such approach by adapting language model watermarking techniques to this setting. We identify a key challenge: the lack of reverse cycle-consistency (RCC), wherein re-tokenizing generated image tokens significantly alters the token sequence, effectively erasing the watermark. To address this and to make our method robust to common image transformations, neural compression, and removal attacks, we introduce (i) a custom tokenizer-detokenizer finetuning procedure that improves RCC, and (ii) a complementary watermark synchronization layer. As our experiments demonstrate, our approach enables reliable and robust watermark detection with theoretically grounded p-values.

Водяные знаки в авторегрессионной генерации изображений

Watermarking Autoregressive Image Generation

Аннотация

Support