Marca d'água de texto robusta de vários bits com parafraseadores baseados em LLM.
Robust Multi-bit Text Watermark with LLM-based Paraphrasers
December 4, 2024
Autores: Xiaojun Xu, Jinghan Jia, Yuanshun Yao, Yang Liu, Hang Li
cs.AI
Resumo
Propomos uma marca d'água de texto multibit imperceptível incorporada por meio de parafraseamento com Modelos de Linguagem com Poucas Letras (LLMs). Ajustamos finamente um par de parafraseadores LLM projetados para se comportarem de maneira diferente, de modo que a diferença de parafraseamento refletida na semântica do texto possa ser identificada por um decodificador treinado. Para incorporar nossa marca d'água multibit, usamos dois parafraseadores alternadamente para codificar o código binário predefinido no nível da sentença. Em seguida, utilizamos um classificador de texto como decodificador para decodificar cada bit da marca d'água. Através de experimentos extensivos, demonstramos que nossas marcas d'água podem atingir mais de 99,99\% de AUC de detecção com parafraseadores de texto pequenos (1,1B), mantendo a informação semântica da sentença original. Mais importante ainda, nosso processo é robusto sob substituição de palavras e perturbações de parafraseamento de sentenças e generaliza bem para dados fora da distribuição. Também demonstramos a furtividade de nossa marca d'água com avaliação baseada em LLM. Disponibilizamos o código-fonte em: https://github.com/xiaojunxu/multi-bit-text-watermark.
English
We propose an imperceptible multi-bit text watermark embedded by paraphrasing
with LLMs. We fine-tune a pair of LLM paraphrasers that are designed to behave
differently so that their paraphrasing difference reflected in the text
semantics can be identified by a trained decoder. To embed our multi-bit
watermark, we use two paraphrasers alternatively to encode the pre-defined
binary code at the sentence level. Then we use a text classifier as the decoder
to decode each bit of the watermark. Through extensive experiments, we show
that our watermarks can achieve over 99.99\% detection AUC with small (1.1B)
text paraphrasers while keeping the semantic information of the original
sentence. More importantly, our pipeline is robust under word substitution and
sentence paraphrasing perturbations and generalizes well to
out-of-distributional data. We also show the stealthiness of our watermark with
LLM-based evaluation. We open-source the code:
https://github.com/xiaojunxu/multi-bit-text-watermark.Summary
AI-Generated Summary