Do Trade-off à Sinergia: Um Framework Versátil de Marca d'Água Simbiótica para Modelos de Linguagem de Grande Escala
From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models
May 15, 2025
Autores: Yidan Wang, Yubing Ren, Yanan Cao, Binxing Fang
cs.AI
Resumo
O surgimento dos Modelos de Linguagem de Grande Escala (LLMs) aumentou as preocupações sobre o uso indevido de textos gerados por IA, tornando a marcação d'água uma solução promissora. Os esquemas de marcação d'água predominantes para LLMs se dividem em duas categorias: baseados em logits e baseados em amostragem. No entanto, os esquemas atuais envolvem trade-offs entre robustez, qualidade do texto e segurança. Para mitigar isso, integramos esquemas baseados em logits e em amostragem, aproveitando seus respectivos pontos fortes para alcançar sinergia. Neste artigo, propomos um framework versátil de marcação d'água simbiótica com três estratégias: serial, paralela e híbrida. O framework híbrido incorpora marcas d'água de forma adaptativa usando entropia de tokens e entropia semântica, otimizando o equilíbrio entre detectabilidade, robustez, qualidade do texto e segurança. Além disso, validamos nossa abordagem por meio de experimentos abrangentes em diversos conjuntos de dados e modelos. Os resultados experimentais indicam que nosso método supera as baselines existentes e alcança desempenho de última geração (SOTA). Acreditamos que este framework oferece novas perspectivas sobre diversos paradigmas de marcação d'água. Nosso código está disponível em https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}.
English
The rise of Large Language Models (LLMs) has heightened concerns about the
misuse of AI-generated text, making watermarking a promising solution.
Mainstream watermarking schemes for LLMs fall into two categories: logits-based
and sampling-based. However, current schemes entail trade-offs among
robustness, text quality, and security. To mitigate this, we integrate
logits-based and sampling-based schemes, harnessing their respective strengths
to achieve synergy. In this paper, we propose a versatile symbiotic
watermarking framework with three strategies: serial, parallel, and hybrid. The
hybrid framework adaptively embeds watermarks using token entropy and semantic
entropy, optimizing the balance between detectability, robustness, text
quality, and security. Furthermore, we validate our approach through
comprehensive experiments on various datasets and models. Experimental results
indicate that our method outperforms existing baselines and achieves
state-of-the-art (SOTA) performance. We believe this framework provides novel
insights into diverse watermarking paradigms. Our code is available at
https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}.