EmbTracker: Marca d'Água Rastreável em Caixa-Preta para Modelos de Linguagem Federados

Resumo

O Modelo de Linguagem Federado (FedLM) permite uma aprendizagem colaborativa sem partilha de dados brutos, mas introduz uma vulnerabilidade crítica, uma vez que cada cliente não confiável pode divulgar a instância do modelo funcional recebida. As atuais esquemas de marcação de água para FedLM frequentemente requerem acesso de caixa-branca e cooperação do lado do cliente, fornecendo apenas uma prova de propriedade a nível de grupo em vez de rastreabilidade individual. Propomos o EmbTracker, uma estrutura de marcação de água rastreável e de caixa-preta, operada no servidor e especificamente concebida para FedLMs. O EmbTracker alcança a verificabilidade de caixa-preta através da incorporação de uma marca de água baseada em backdoor, detetável por meio de consultas simples à API. A rastreabilidade a nível de cliente é realizada através da injeção de marcas de água únicas e específicas da identidade no modelo distribuído a cada cliente. Desta forma, um modelo divulgado pode ser atribuído a um culpado específico, garantindo robustez mesmo contra participantes não cooperativos. Experimentos extensivos em vários modelos de linguagem e visão-linguagem demonstram que o EmbTracker alcança uma rastreabilidade robusta com taxas de verificação próximas de 100%, alta resiliência contra ataques de remoção (afinação, poda, quantização) e um impacto negligenciável no desempenho da tarefa principal (tipicamente dentro de 1-2%).

English

Federated Language Model (FedLM) allows a collaborative learning without sharing raw data, yet it introduces a critical vulnerability, as every untrustworthy client may leak the received functional model instance. Current watermarking schemes for FedLM often require white-box access and client-side cooperation, providing only group-level proof of ownership rather than individual traceability. We propose EmbTracker, a server-side, traceable black-box watermarking framework specifically designed for FedLMs. EmbTracker achieves black-box verifiability by embedding a backdoor-based watermark detectable through simple API queries. Client-level traceability is realized by injecting unique identity-specific watermarks into the model distributed to each client. In this way, a leaked model can be attributed to a specific culprit, ensuring robustness even against non-cooperative participants. Extensive experiments on various language and vision-language models demonstrate that EmbTracker achieves robust traceability with verification rates near 100\%, high resilience against removal attacks (fine-tuning, pruning, quantization), and negligible impact on primary task performance (typically within 1-2\%).