EmbTracker: Tracereerbare Black-box Watermarking voor Gefedereerde Taalmodellen

Samenvatting

Het Federated Language Model (FedLM) maakt collaboratief leren mogelijk zonder ruwe data te delen, maar introduceert een kritieke kwetsbaarheid, aangezien elke niet-vertrouwde client het ontvangen functionele modelinstantie kan lekken. Bestaande watermarkingschema's voor FedLM vereisen vaak white-box toegang en client-side samenwerking, en bieden slechts een groepsniveau-bewijs van eigendom in plaats van individuele traceerbaarheid. Wij stellen EmbTracker voor, een server-side, traceerbaar black-box watermarkingframework specifiek ontworpen voor FedLM's. EmbTracker bereikt black-box verifieerbaarheid door een op een backdoor gebaseerd watermark in te bedden dat detecteerbaar is via eenvoudige API-query's. Traceerbaarheid op clientniveau wordt gerealiseerd door unieke, identiteitsspecifieke watermerken in het model te injecteren dat aan elke client wordt gedistribueerd. Hierdoor kan een gelekt model worden toegeschreven aan een specifieke dader, wat robuustheid garandeert zelfs tegen niet-meewerkende deelnemers. Uitgebreide experimenten met diverse taal- en vision-languagemodellen tonen aan dat EmbTracker robuuste traceerbaarheid bereikt met verificatiepercentages van bijna 100%, hoge weerstand tegen verwijderingsaanvallen (fine-tuning, pruning, quantisatie) en een verwaarloosbare impact op de prestaties van de primaire taak (meestal binnen 1-2%).

English

Federated Language Model (FedLM) allows a collaborative learning without sharing raw data, yet it introduces a critical vulnerability, as every untrustworthy client may leak the received functional model instance. Current watermarking schemes for FedLM often require white-box access and client-side cooperation, providing only group-level proof of ownership rather than individual traceability. We propose EmbTracker, a server-side, traceable black-box watermarking framework specifically designed for FedLMs. EmbTracker achieves black-box verifiability by embedding a backdoor-based watermark detectable through simple API queries. Client-level traceability is realized by injecting unique identity-specific watermarks into the model distributed to each client. In this way, a leaked model can be attributed to a specific culprit, ensuring robustness even against non-cooperative participants. Extensive experiments on various language and vision-language models demonstrate that EmbTracker achieves robust traceability with verification rates near 100\%, high resilience against removal attacks (fine-tuning, pruning, quantization), and negligible impact on primary task performance (typically within 1-2\%).

EmbTracker: Tracereerbare Black-box Watermarking voor Gefedereerde Taalmodellen

EmbTracker: Traceable Black-box Watermarking for Federated Language Models

Samenvatting

Support