Autoregressive Bildwasserzeichen durch lexikalische Verzerrung: Ein Ansatz resistent gegen Regenerationsangriffe
Autoregressive Images Watermarking through Lexical Biasing: An Approach Resistant to Regeneration Attack
June 1, 2025
Autoren: Siqi Hui, Yiren Song, Sanping Zhou, Ye Deng, Wenli Huang, Jinjun Wang
cs.AI
Zusammenfassung
Autoregressive (AR) Bildgenerierungsmodelle haben zunehmend Aufmerksamkeit erregt,
aufgrund ihrer Durchbrüche in der Synthesequalität, was die Notwendigkeit einer robusten
Wasserzeicheneinbettung zur Verhinderung von Missbrauch unterstreicht. Bisherige
Wasserzeichen-Techniken während der Generierung sind jedoch hauptsächlich für
Diffusionsmodelle konzipiert, bei denen Wasserzeichen in den latenten Zuständen der
Diffusion eingebettet werden. Dieses Design stellt erhebliche Herausforderungen für die
direkte Anpassung an AR-Modelle dar, die Bilder sequenziell durch Token-Vorhersage
erzeugen. Darüber hinaus können Diffusions-basierte Regenerationsangriffe solche
Wasserzeichen effektiv entfernen, indem sie die latenten Zustände der Diffusion stören.
Um diese Herausforderungen zu bewältigen, schlagen wir Lexical Bias Watermarking
(LBW) vor, ein neuartiges Framework für AR-Modelle, das Regenerationsangriffe
widersteht. LBW bettet Wasserzeichen direkt in Token-Karten ein, indem die Token-Auswahl
während der Generierung in Richtung einer vordefinierten „Green List“ verzerrt wird.
Dieser Ansatz gewährleistet eine nahtlose Integration in bestehende AR-Modelle und
erweitert sich natürlich auf nachträgliche Wasserzeicheneinbettung. Um die Sicherheit
gegen White-Box-Angriffe zu erhöhen, wird anstelle einer einzigen Green List die Green
List für jedes Bild zufällig aus einem Pool von Green Lists ausgewählt. Die
Wasserzeichenerkennung erfolgt durch Quantisierung und statistische Analyse der
Token-Verteilung. Umfangreiche Experimente zeigen, dass LBW eine überlegene
Robustheit der Wasserzeichen erreicht, insbesondere bei der Abwehr von
Regenerationsangriffen.
English
Autoregressive (AR) image generation models have gained increasing attention
for their breakthroughs in synthesis quality, highlighting the need for robust
watermarking to prevent misuse. However, existing in-generation watermarking
techniques are primarily designed for diffusion models, where watermarks are
embedded within diffusion latent states. This design poses significant
challenges for direct adaptation to AR models, which generate images
sequentially through token prediction. Moreover, diffusion-based regeneration
attacks can effectively erase such watermarks by perturbing diffusion latent
states. To address these challenges, we propose Lexical Bias Watermarking
(LBW), a novel framework designed for AR models that resists regeneration
attacks. LBW embeds watermarks directly into token maps by biasing token
selection toward a predefined green list during generation. This approach
ensures seamless integration with existing AR models and extends naturally to
post-hoc watermarking. To increase the security against white-box attacks,
instead of using a single green list, the green list for each image is randomly
sampled from a pool of green lists. Watermark detection is performed via
quantization and statistical analysis of the token distribution. Extensive
experiments demonstrate that LBW achieves superior watermark robustness,
particularly in resisting regeneration attacks.