Robuuste multi-bit tekstwatermerk met LLM-gebaseerde parafrasehulpmiddelen.
Robust Multi-bit Text Watermark with LLM-based Paraphrasers
December 4, 2024
Auteurs: Xiaojun Xu, Jinghan Jia, Yuanshun Yao, Yang Liu, Hang Li
cs.AI
Samenvatting
Wij stellen een onopvallend multi-bit tekstwatermerk voor dat wordt ingebed door parafraseren met LLM's. We finetunen een paar LLM-parafraseurs die zo zijn ontworpen dat ze zich verschillend gedragen, zodat het verschil in parafraseren dat wordt weerspiegeld in de tekstsemantiek kan worden geïdentificeerd door een getrainde decoder. Om ons multi-bit watermerk in te bedden, gebruiken we twee parafraseurs afwisselend om de vooraf gedefinieerde binaire code op zinsniveau te coderen. Vervolgens gebruiken we een tekstklassificeerder als decoder om elk bit van het watermerk te decoderen. Via uitgebreide experimenten tonen we aan dat onze watermerken meer dan 99,99\% detectie AUC kunnen bereiken met kleine (1,1B) tekstparafraseurs, terwijl de semantische informatie van de oorspronkelijke zin behouden blijft. Belangrijker nog is dat onze aanpak robuust is bij woordsubstitutie en zinsparafraseverstoringen en goed generaliseert naar out-of-distributionele gegevens. We tonen ook de onopvallendheid van ons watermerk met LLM-gebaseerde evaluatie. We stellen de code beschikbaar als open source: https://github.com/xiaojunxu/multi-bit-text-watermark.
English
We propose an imperceptible multi-bit text watermark embedded by paraphrasing
with LLMs. We fine-tune a pair of LLM paraphrasers that are designed to behave
differently so that their paraphrasing difference reflected in the text
semantics can be identified by a trained decoder. To embed our multi-bit
watermark, we use two paraphrasers alternatively to encode the pre-defined
binary code at the sentence level. Then we use a text classifier as the decoder
to decode each bit of the watermark. Through extensive experiments, we show
that our watermarks can achieve over 99.99\% detection AUC with small (1.1B)
text paraphrasers while keeping the semantic information of the original
sentence. More importantly, our pipeline is robust under word substitution and
sentence paraphrasing perturbations and generalizes well to
out-of-distributional data. We also show the stealthiness of our watermark with
LLM-based evaluation. We open-source the code:
https://github.com/xiaojunxu/multi-bit-text-watermark.