EmbTracker: Filigranatura Tracciabile a Scatola Nera per Modelli Linguistici Federati

Abstract

Il Federated Language Model (FedLM) consente un apprendimento collaborativo senza la condivisione di dati grezzi, ma introduce una vulnerabilità critica, poiché ogni client non affidabile potrebbe divulgare l'istanza del modello funzionale ricevuta. Gli schemi di watermarking attuali per FedLM richiedono spesso l'accesso in white-box e la cooperazione lato client, fornendo una prova di proprietà solo a livello di gruppo piuttosto che una tracciabilità individuale. Proponiamo EmbTracker, un framework di watermarking black-box tracciabile specificamente progettato per i FedLM, che opera lato server. EmbTracker raggiunge la verificabilità in black-box incorporando un watermark basato su backdoor rilevabile tramite semplici query API. La tracciabilità a livello di client è realizzata iniettando watermark unici e specifici per identità nel modello distribuito a ciascun client. In questo modo, un modello trapelato può essere attribuito a un colpevole specifico, garantendo robustezza anche contro partecipanti non cooperativi. Esperimenti estesi su vari modelli linguistici e visione-linguaggio dimostrano che EmbTracker raggiunge una tracciabilità robusta con tassi di verifica prossimi al 100%, alta resilienza agli attacchi di rimozione (fine-tuning, pruning, quantizzazione) e un impatto trascurabile sulle prestazioni del task primario (tipicamente entro l'1-2%).

English

Federated Language Model (FedLM) allows a collaborative learning without sharing raw data, yet it introduces a critical vulnerability, as every untrustworthy client may leak the received functional model instance. Current watermarking schemes for FedLM often require white-box access and client-side cooperation, providing only group-level proof of ownership rather than individual traceability. We propose EmbTracker, a server-side, traceable black-box watermarking framework specifically designed for FedLMs. EmbTracker achieves black-box verifiability by embedding a backdoor-based watermark detectable through simple API queries. Client-level traceability is realized by injecting unique identity-specific watermarks into the model distributed to each client. In this way, a leaked model can be attributed to a specific culprit, ensuring robustness even against non-cooperative participants. Extensive experiments on various language and vision-language models demonstrate that EmbTracker achieves robust traceability with verification rates near 100\%, high resilience against removal attacks (fine-tuning, pruning, quantization), and negligible impact on primary task performance (typically within 1-2\%).

EmbTracker: Filigranatura Tracciabile a Scatola Nera per Modelli Linguistici Federati

EmbTracker: Traceable Black-box Watermarking for Federated Language Models

Abstract

Support