ChatPaper.aiChatPaper

От компромисса к синергии: универсальная симбиотическая система водяных знаков для крупных языковых моделей

From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models

May 15, 2025
Авторы: Yidan Wang, Yubing Ren, Yanan Cao, Binxing Fang
cs.AI

Аннотация

Рост популярности крупных языковых моделей (LLM) усилил опасения по поводу неправомерного использования текстов, созданных с помощью ИИ, что делает водяные знаки перспективным решением. Основные схемы нанесения водяных знаков для LLM делятся на две категории: основанные на логитах и на выборке. Однако текущие схемы предполагают компромиссы между устойчивостью, качеством текста и безопасностью. Чтобы смягчить это, мы интегрируем схемы, основанные на логитах и выборке, используя их сильные стороны для достижения синергии. В данной статье мы предлагаем универсальную симбиотическую структуру нанесения водяных знаков с тремя стратегиями: последовательной, параллельной и гибридной. Гибридная структура адаптивно внедряет водяные знаки, используя энтропию токенов и семантическую энтропию, оптимизируя баланс между обнаруживаемостью, устойчивостью, качеством текста и безопасностью. Кроме того, мы подтверждаем наш подход с помощью всесторонних экспериментов на различных наборах данных и моделях. Результаты экспериментов показывают, что наш метод превосходит существующие базовые подходы и достигает наилучших результатов (SOTA). Мы считаем, что эта структура предоставляет новые идеи для различных парадигм нанесения водяных знаков. Наш код доступен по адресу https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}.
English
The rise of Large Language Models (LLMs) has heightened concerns about the misuse of AI-generated text, making watermarking a promising solution. Mainstream watermarking schemes for LLMs fall into two categories: logits-based and sampling-based. However, current schemes entail trade-offs among robustness, text quality, and security. To mitigate this, we integrate logits-based and sampling-based schemes, harnessing their respective strengths to achieve synergy. In this paper, we propose a versatile symbiotic watermarking framework with three strategies: serial, parallel, and hybrid. The hybrid framework adaptively embeds watermarks using token entropy and semantic entropy, optimizing the balance between detectability, robustness, text quality, and security. Furthermore, we validate our approach through comprehensive experiments on various datasets and models. Experimental results indicate that our method outperforms existing baselines and achieves state-of-the-art (SOTA) performance. We believe this framework provides novel insights into diverse watermarking paradigms. Our code is available at https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}.

Summary

AI-Generated Summary

PDF22May 19, 2025