EmbTracker: Rückverfolgbare Black-Box-Wasserzeichen für Federated Language Models

Zusammenfassung

Federated Language Model (FedLM) ermöglicht kollaboratives Lernen ohne Austausch von Rohdaten, führt jedoch eine kritische Schwachstelle ein, da jeder nicht vertrauenswürdige Client die empfangene funktionale Modellinstanz preisgeben kann. Bestehende Wasserzeichen-Verfahren für FedLM erfordern oft White-Box-Zugriff und Client-seitige Kooperation und bieten lediglich Nachweise auf Gruppenebene statt individueller Rückverfolgbarkeit. Wir stellen EmbTracker vor, ein serverseitiges, rückverfolgbares Black-Box-Wasserzeichen-Framework, das speziell für FedLMs entwickelt wurde. EmbTracker erreicht Black-Box-Verifizierbarkeit durch Einbettung eines Backdoor-basierten Wasserzeichens, das über einfache API-Abfragen erkennbar ist. Client-spezifische Rückverfolgbarkeit wird realisiert, indem einzigartige identitätsbezogene Wasserzeichen in das an jeden Client verteilte Modell injiziert werden. Auf diese Weise kann ein geleaktes Modell einem bestimmten Verantwortlichen zugeordnet werden, was Robustheit selbst gegenüber nicht kooperativen Teilnehmern gewährleistet. Umfangreiche Experimente mit verschiedenen Sprach- und Vision-Language-Modellen zeigen, dass EmbTracker eine robuste Rückverfolgbarkeit mit Verifizierungsraten nahe 100 %, hohe Widerstandsfähigkeit gegen Entfernungsangriffe (Fine-Tuning, Pruning, Quantisierung) und vernachlässigbare Auswirkungen auf die Hauptaufgabenperformance (typischerweise innerhalb von 1-2 %) erreicht.

English

Federated Language Model (FedLM) allows a collaborative learning without sharing raw data, yet it introduces a critical vulnerability, as every untrustworthy client may leak the received functional model instance. Current watermarking schemes for FedLM often require white-box access and client-side cooperation, providing only group-level proof of ownership rather than individual traceability. We propose EmbTracker, a server-side, traceable black-box watermarking framework specifically designed for FedLMs. EmbTracker achieves black-box verifiability by embedding a backdoor-based watermark detectable through simple API queries. Client-level traceability is realized by injecting unique identity-specific watermarks into the model distributed to each client. In this way, a leaked model can be attributed to a specific culprit, ensuring robustness even against non-cooperative participants. Extensive experiments on various language and vision-language models demonstrate that EmbTracker achieves robust traceability with verification rates near 100\%, high resilience against removal attacks (fine-tuning, pruning, quantization), and negligible impact on primary task performance (typically within 1-2\%).

EmbTracker: Rückverfolgbare Black-Box-Wasserzeichen für Federated Language Models

EmbTracker: Traceable Black-box Watermarking for Federated Language Models

Zusammenfassung

Support