ChatPaper.aiChatPaper

Tres pilares para consolidar las marcas de agua en los modelos de lenguaje de gran escala

Three Bricks to Consolidate Watermarks for Large Language Models

July 26, 2023
Autores: Pierre Fernandez, Antoine Chaffin, Karim Tit, Vivien Chappelier, Teddy Furon
cs.AI

Resumen

La tarea de discernir entre textos generados y naturales se está volviendo cada vez más desafiante. En este contexto, la marca de agua surge como una técnica prometedora para atribuir textos generados a un modelo específico. Esta técnica altera el proceso de generación de muestras para dejar una huella invisible en el texto generado, facilitando su detección posterior. Esta investigación consolida las marcas de agua para modelos de lenguaje grandes basándose en tres consideraciones teóricas y empíricas. Primero, introducimos nuevas pruebas estadísticas que ofrecen garantías teóricas robustas, las cuales siguen siendo válidas incluso con tasas de falsos positivos muy bajas (menores a 10^{-6}). Segundo, comparamos la efectividad de las marcas de agua utilizando puntos de referencia clásicos en el campo del procesamiento del lenguaje natural, obteniendo información sobre su aplicabilidad en el mundo real. Tercero, desarrollamos esquemas avanzados de detección para escenarios en los que se tiene acceso al modelo de lenguaje grande, así como marcas de agua de múltiples bits.
English
The task of discerning between generated and natural texts is increasingly challenging. In this context, watermarking emerges as a promising technique for ascribing generated text to a specific model. It alters the sampling generation process so as to leave an invisible trace in the generated output, facilitating later detection. This research consolidates watermarks for large language models based on three theoretical and empirical considerations. First, we introduce new statistical tests that offer robust theoretical guarantees which remain valid even at low false-positive rates (less than 10^{-6}). Second, we compare the effectiveness of watermarks using classical benchmarks in the field of natural language processing, gaining insights into their real-world applicability. Third, we develop advanced detection schemes for scenarios where access to the LLM is available, as well as multi-bit watermarking.
PDF140December 15, 2024