Del compromiso a la sinergia: un marco versátil de marca de agua simbiótica para modelos de lenguaje a gran escala

Resumen

El auge de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) ha incrementado las preocupaciones sobre el mal uso de textos generados por IA, haciendo que la marca de agua (watermarking) se presente como una solución prometedora. Los esquemas principales de marca de agua para LLMs se dividen en dos categorías: basados en logits y basados en muestreo. Sin embargo, los esquemas actuales implican compromisos entre robustez, calidad del texto y seguridad. Para mitigar esto, integramos esquemas basados en logits y en muestreo, aprovechando sus respectivas fortalezas para lograr sinergia. En este artículo, proponemos un marco versátil de marca de agua simbiótica con tres estrategias: serial, paralela e híbrida. El marco híbrido incrusta marcas de agua de manera adaptativa utilizando la entropía de tokens y la entropía semántica, optimizando el equilibrio entre detectabilidad, robustez, calidad del texto y seguridad. Además, validamos nuestro enfoque mediante experimentos exhaustivos en diversos conjuntos de datos y modelos. Los resultados experimentales indican que nuestro método supera a los baselines existentes y alcanza un rendimiento de vanguardia (SOTA, por sus siglas en inglés). Creemos que este marco proporciona nuevas perspectivas sobre diversos paradigmas de marca de agua. Nuestro código está disponible en https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}.

English

The rise of Large Language Models (LLMs) has heightened concerns about the misuse of AI-generated text, making watermarking a promising solution. Mainstream watermarking schemes for LLMs fall into two categories: logits-based and sampling-based. However, current schemes entail trade-offs among robustness, text quality, and security. To mitigate this, we integrate logits-based and sampling-based schemes, harnessing their respective strengths to achieve synergy. In this paper, we propose a versatile symbiotic watermarking framework with three strategies: serial, parallel, and hybrid. The hybrid framework adaptively embeds watermarks using token entropy and semantic entropy, optimizing the balance between detectability, robustness, text quality, and security. Furthermore, we validate our approach through comprehensive experiments on various datasets and models. Experimental results indicate that our method outperforms existing baselines and achieves state-of-the-art (SOTA) performance. We believe this framework provides novel insights into diverse watermarking paradigms. Our code is available at https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}.

Del compromiso a la sinergia: un marco versátil de marca de agua simbiótica para modelos de lenguaje a gran escala

From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models

Resumen

Support