EmbTracker: Трассируемая водяная метка для языковых моделей с федеративным обучением в условиях черного ящика

Аннотация

Федеративная языковая модель (FedLM) позволяет осуществлять совместное обучение без обмена исходными данными, однако она создает критическую уязвимость, поскольку каждый ненадежный клиент может раскрыть полученный экземпляр функциональной модели. Современные схемы водяных знаков для FedLM часто требуют белого доступа и сотрудничества на стороне клиента, обеспечивая лишь групповое подтверждение прав собственности вместо индивидуальной отслеживаемости. Мы предлагаем EmbTracker — отслеживаемую серверную структуру черного ящика для нанесения водяных знаков, специально разработанную для федеративных языковых моделей. EmbTracker достигает верифицируемости черного ящика путем внедрения водяного знака на основе бэкдора, который обнаруживается с помощью простых API-запросов. Поэтапная отслеживаемость реализуется за счет внедрения уникальных водяных знаков, специфичных для идентификатора, в модель, распространяемую каждому клиенту. Таким образом, утечка модели может быть приписана конкретному виновнику, что обеспечивает устойчивость даже против несотрудничающих участников. Многочисленные эксперименты на различных языковых и визуально-языковых моделях демонстрируют, что EmbTracker обеспечивает надежную отслеживаемость с уровнем верификации, близким к 100%, высокую устойчивость к атакам на удаление (тонкая настройка, прунинг, квантование) и незначительное влияние на производительность основных задач (обычно в пределах 1-2%).

English

Federated Language Model (FedLM) allows a collaborative learning without sharing raw data, yet it introduces a critical vulnerability, as every untrustworthy client may leak the received functional model instance. Current watermarking schemes for FedLM often require white-box access and client-side cooperation, providing only group-level proof of ownership rather than individual traceability. We propose EmbTracker, a server-side, traceable black-box watermarking framework specifically designed for FedLMs. EmbTracker achieves black-box verifiability by embedding a backdoor-based watermark detectable through simple API queries. Client-level traceability is realized by injecting unique identity-specific watermarks into the model distributed to each client. In this way, a leaked model can be attributed to a specific culprit, ensuring robustness even against non-cooperative participants. Extensive experiments on various language and vision-language models demonstrate that EmbTracker achieves robust traceability with verification rates near 100\%, high resilience against removal attacks (fine-tuning, pruning, quantization), and negligible impact on primary task performance (typically within 1-2\%).

EmbTracker: Трассируемая водяная метка для языковых моделей с федеративным обучением в условиях черного ящика

EmbTracker: Traceable Black-box Watermarking for Federated Language Models

Аннотация

Support