ChatPaper.aiChatPaper

EmbTracker: 連合学習言語モデルのための追跡可能なブラックボックス透かし

EmbTracker: Traceable Black-box Watermarking for Federated Language Models

March 12, 2026
著者: Haodong Zhao, Jinming Hu, Yijie Bai, Tian Dong, Wei Du, Zhuosheng Zhang, Yanjiao Chen, Haojin Zhu, Gongshen Liu
cs.AI

要旨

フェデレート言語モデル(FedLM)は、生データを共有することなく協調学習を可能にするが、信頼できないクライアントが受信した機能モデルインスタンスを漏洩させる可能性があるという重大な脆弱性を導入する。現在のFedLM向け透かし手法は、ホワイトボックスアクセスとクライアント側の協力を必要とすることが多く、個々の追跡可能性ではなくグループレベルの所有権証明しか提供しない。本論文では、FedLMに特化したサーバーサイドの追跡可能なブラックボックス透かしフレームワーク「EmbTracker」を提案する。EmbTrackerは、単純なAPIクエリで検出可能なバックドア型透かしを埋め込むことでブラックボックス検証を実現する。クライアントレベルの追跡可能性は、各クライアントに配布するモデルに固有のIDに基づく透かしを注入することで実現する。これにより、漏洩したモデルを特定の原因クライアントに帰属させ、非協力的な参加者に対しても堅牢性を確保する。様々な言語モデルおよび視覚言語モデルを用いた大規模な実験により、EmbTrackerが100%に近い検証率で強固な追跡可能性を達成し、除去攻撃(ファインチューニング、プルーニング、量子化)に対する高い耐性を持ち、主要タスクの性能への影響が無視できる範囲(通常1-2%以内)であることを実証した。
English
Federated Language Model (FedLM) allows a collaborative learning without sharing raw data, yet it introduces a critical vulnerability, as every untrustworthy client may leak the received functional model instance. Current watermarking schemes for FedLM often require white-box access and client-side cooperation, providing only group-level proof of ownership rather than individual traceability. We propose EmbTracker, a server-side, traceable black-box watermarking framework specifically designed for FedLMs. EmbTracker achieves black-box verifiability by embedding a backdoor-based watermark detectable through simple API queries. Client-level traceability is realized by injecting unique identity-specific watermarks into the model distributed to each client. In this way, a leaked model can be attributed to a specific culprit, ensuring robustness even against non-cooperative participants. Extensive experiments on various language and vision-language models demonstrate that EmbTracker achieves robust traceability with verification rates near 100\%, high resilience against removal attacks (fine-tuning, pruning, quantization), and negligible impact on primary task performance (typically within 1-2\%).
PDF22March 15, 2026