Gehashtes Wasserzeichen als Filter: Abwehr von Fälschungs- und Überschreibungsangriffen in gewichtsbasiertem Wasserzeichen für neuronale Netze

papers.abstract

Als wertvolle digitale Assets erfordern tiefe neuronale Netze einen robusten Eigentumsschutz, wodurch das Wasserzeichen von neuronalen Netzen (Neural Network Watermarking, NNW) als vielversprechende Lösung positioniert wird. Unter den verschiedenen NNW-Ansätzen werden gewichtsbasierte Methoden aufgrund ihrer Einfachheit und Praktikabilität bevorzugt; sie bleiben jedoch anfällig für Fälschungs- und Überschreibungsangriffe. Um diese Herausforderungen zu bewältigen, schlagen wir NeuralMark vor, eine robuste Methode, die auf einem gehashten Wasserzeichenfilter basiert. Konkret nutzen wir eine Hash-Funktion, um ein irreversibles binäres Wasserzeichen aus einem geheimen Schlüssel zu generieren, das dann als Filter zur Auswahl der Modellparameter für die Einbettung verwendet wird. Dieses Design verknüpft geschickt die Einbettungsparameter mit dem gehashten Wasserzeichen und bietet einen robusten Schutz gegen sowohl Fälschungs- als auch Überschreibungsangriffe. Ein durchschnittliches Pooling wird ebenfalls integriert, um Angriffe durch Feinabstimmung und Beschneidung zu widerstehen. Darüber hinaus kann es nahtlos in verschiedene Architekturen neuronaler Netze integriert werden, was eine breite Anwendbarkeit sicherstellt. Theoretisch analysieren wir seine Sicherheitsgrenze. Empirisch bestätigen wir seine Wirksamkeit und Robustheit über 13 verschiedene Convolutional- und Transformer-Architekturen hinweg, die fünf Bildklassifizierungsaufgaben und eine Textgenerierungsaufgabe abdecken. Die Quellcodes sind unter https://github.com/AIResearch-Group/NeuralMark verfügbar.

English

As valuable digital assets, deep neural networks necessitate robust ownership protection, positioning neural network watermarking (NNW) as a promising solution. Among various NNW approaches, weight-based methods are favored for their simplicity and practicality; however, they remain vulnerable to forging and overwriting attacks. To address those challenges, we propose NeuralMark, a robust method built around a hashed watermark filter. Specifically, we utilize a hash function to generate an irreversible binary watermark from a secret key, which is then used as a filter to select the model parameters for embedding. This design cleverly intertwines the embedding parameters with the hashed watermark, providing a robust defense against both forging and overwriting attacks. An average pooling is also incorporated to resist fine-tuning and pruning attacks. Furthermore, it can be seamlessly integrated into various neural network architectures, ensuring broad applicability. Theoretically, we analyze its security boundary. Empirically, we verify its effectiveness and robustness across 13 distinct Convolutional and Transformer architectures, covering five image classification tasks and one text generation task. The source codes are available at https://github.com/AIResearch-Group/NeuralMark.

Gehashtes Wasserzeichen als Filter: Abwehr von Fälschungs- und Überschreibungsangriffen in gewichtsbasiertem Wasserzeichen für neuronale Netze

Hashed Watermark as a Filter: Defeating Forging and Overwriting Attacks in Weight-based Neural Network Watermarking

papers.abstract

Support