ChatPaper.aiChatPaper

Надежный многобитный текстовый водяной знак с использованием парапрейзеров на основе LLM.

Robust Multi-bit Text Watermark with LLM-based Paraphrasers

December 4, 2024
Авторы: Xiaojun Xu, Jinghan Jia, Yuanshun Yao, Yang Liu, Hang Li
cs.AI

Аннотация

Мы предлагаем незаметный многобитный текстовый водяной знак, встроенный путем перефразирования с использованием языковых моделей с ограниченной длиной. Мы донастраиваем пару перефразирующих языковых моделей, которые специально разработаны для различного поведения, так чтобы разница в перефразировании между ними, отраженная в семантике текста, могла быть идентифицирована обученным декодером. Для встраивания нашего многобитного водяного знака мы используем две перефразирующие модели поочередно для кодирования заранее определенного двоичного кода на уровне предложения. Затем мы используем текстовый классификатор в качестве декодера для расшифровки каждого бита водяного знака. Через обширные эксперименты мы показываем, что наши водяные знаки могут достигать более 99,99\% AUC обнаружения при использовании небольших (1,1 млрд) перефразирующих моделей текста, сохраняя семантическую информацию исходного предложения. Более того, наша система устойчива к замене слов и изменениям в перефразировании предложений, а также хорошо обобщается на данные, не входящие в распределение. Мы также демонстрируем незаметность нашего водяного знака с помощью оценки на основе языковых моделей с ограниченной длиной. Мы предоставляем исходный код открытым доступом по ссылке: https://github.com/xiaojunxu/multi-bit-text-watermark.
English
We propose an imperceptible multi-bit text watermark embedded by paraphrasing with LLMs. We fine-tune a pair of LLM paraphrasers that are designed to behave differently so that their paraphrasing difference reflected in the text semantics can be identified by a trained decoder. To embed our multi-bit watermark, we use two paraphrasers alternatively to encode the pre-defined binary code at the sentence level. Then we use a text classifier as the decoder to decode each bit of the watermark. Through extensive experiments, we show that our watermarks can achieve over 99.99\% detection AUC with small (1.1B) text paraphrasers while keeping the semantic information of the original sentence. More importantly, our pipeline is robust under word substitution and sentence paraphrasing perturbations and generalizes well to out-of-distributional data. We also show the stealthiness of our watermark with LLM-based evaluation. We open-source the code: https://github.com/xiaojunxu/multi-bit-text-watermark.

Summary

AI-Generated Summary

PDF62December 10, 2024