EmbTracker : Marquage en boîte noire traçable pour les modèles de langage fédérés

Résumé

Le modèle de langage fédéré (FedLM) permet un apprentissage collaboratif sans partage de données brutes, mais il introduit une vulnérabilité critique, car chaque client non digne de confiance peut divulguer l'instance modèle fonctionnelle reçue. Les schémas de tatouage actuels pour FedLM exigent souvent un accès en boîte blanche et une coopération côté client, fournissant uniquement une preuve de propriété au niveau du groupe plutôt qu'une traçabilité individuelle. Nous proposons EmbTracker, un cadre de tatouage en boîte noire traçable côté serveur, spécialement conçu pour les FedLM. EmbTracker atteint une vérifiabilité en boîte noire en incorporant un tatouage basé sur une porte dérobée détectable via de simples requêtes API. La traçabilité au niveau client est réalisée en injectant des tatouages uniques spécifiques à l'identité dans le modèle distribué à chaque client. Ainsi, un modèle divulgué peut être attribué à un coupable spécifique, garantissant une robustesse même contre les participants non coopératifs. Des expériences approfondies sur divers modèles de langage et vision-langage démontrent qu'EmbTracker atteint une traçabilité robuste avec des taux de vérification proches de 100 %, une haute résilience aux attaques de suppression (recalibrage, élagage, quantification) et un impact négligeable sur les performances de la tâche principale (généralement inférieur à 1-2 %).

English

Federated Language Model (FedLM) allows a collaborative learning without sharing raw data, yet it introduces a critical vulnerability, as every untrustworthy client may leak the received functional model instance. Current watermarking schemes for FedLM often require white-box access and client-side cooperation, providing only group-level proof of ownership rather than individual traceability. We propose EmbTracker, a server-side, traceable black-box watermarking framework specifically designed for FedLMs. EmbTracker achieves black-box verifiability by embedding a backdoor-based watermark detectable through simple API queries. Client-level traceability is realized by injecting unique identity-specific watermarks into the model distributed to each client. In this way, a leaked model can be attributed to a specific culprit, ensuring robustness even against non-cooperative participants. Extensive experiments on various language and vision-language models demonstrate that EmbTracker achieves robust traceability with verification rates near 100\%, high resilience against removal attacks (fine-tuning, pruning, quantization), and negligible impact on primary task performance (typically within 1-2\%).

EmbTracker : Marquage en boîte noire traçable pour les modèles de langage fédérés

EmbTracker: Traceable Black-box Watermarking for Federated Language Models

Résumé

Support