Protección de Derechos de Autor para Modelos de Lenguaje de Gran Escala: Un Análisis de Métodos, Desafíos y Tendencias
Copyright Protection for Large Language Models: A Survey of Methods, Challenges, and Trends
August 15, 2025
Autores: Zhenhua Xu, Xubin Yue, Zhebo Wang, Qichen Liu, Xixiang Zhao, Jingxuan Zhang, Wenjun Zeng, Wengpeng Xing, Dezhang Kong, Changting Lin, Meng Han
cs.AI
Resumen
La protección de derechos de autor para los modelos de lenguaje de gran escala es de crucial importancia, dado sus significativos costos de desarrollo, valor propietario y potencial de mal uso. Las revisiones existentes se han centrado predominantemente en técnicas para rastrear contenido generado por LLM, específicamente, la marca de agua en texto, mientras que una exploración sistemática de métodos para proteger los modelos en sí (es decir, la marca de agua en modelos y la huella digital de modelos) sigue ausente. Además, las relaciones y distinciones entre la marca de agua en texto, la marca de agua en modelos y la huella digital de modelos no han sido clarificadas de manera exhaustiva. Este trabajo presenta una revisión integral del estado actual de las tecnologías de protección de derechos de autor para LLM, con un enfoque en la huella digital de modelos, cubriendo los siguientes aspectos: (1) aclarar la conexión conceptual desde la marca de agua en texto hasta la marca de agua en modelos y la huella digital, adoptando una terminología unificada que incorpora la marca de agua en modelos dentro del marco más amplio de huella digital; (2) proporcionar una visión general y comparación de diversas técnicas de marca de agua en texto, destacando casos donde tales métodos pueden funcionar como huella digital de modelos; (3) categorizar y comparar sistemáticamente los enfoques existentes de huella digital de modelos para la protección de derechos de autor de LLM; (4) presentar, por primera vez, técnicas para la transferencia y eliminación de huellas digitales; (5) resumir métricas de evaluación para huellas digitales de modelos, incluyendo efectividad, inocuidad, robustez, discreción y fiabilidad; y (6) discutir desafíos abiertos y direcciones futuras de investigación. Esta revisión tiene como objetivo ofrecer a los investigadores una comprensión profunda tanto de las tecnologías de marca de agua en texto como de huella digital de modelos en la era de los LLM, fomentando así avances adicionales en la protección de su propiedad intelectual.
English
Copyright protection for large language models is of critical importance,
given their substantial development costs, proprietary value, and potential for
misuse. Existing surveys have predominantly focused on techniques for tracing
LLM-generated content-namely, text watermarking-while a systematic exploration
of methods for protecting the models themselves (i.e., model watermarking and
model fingerprinting) remains absent. Moreover, the relationships and
distinctions among text watermarking, model watermarking, and model
fingerprinting have not been comprehensively clarified. This work presents a
comprehensive survey of the current state of LLM copyright protection
technologies, with a focus on model fingerprinting, covering the following
aspects: (1) clarifying the conceptual connection from text watermarking to
model watermarking and fingerprinting, and adopting a unified terminology that
incorporates model watermarking into the broader fingerprinting framework; (2)
providing an overview and comparison of diverse text watermarking techniques,
highlighting cases where such methods can function as model fingerprinting; (3)
systematically categorizing and comparing existing model fingerprinting
approaches for LLM copyright protection; (4) presenting, for the first time,
techniques for fingerprint transfer and fingerprint removal; (5) summarizing
evaluation metrics for model fingerprints, including effectiveness,
harmlessness, robustness, stealthiness, and reliability; and (6) discussing
open challenges and future research directions. This survey aims to offer
researchers a thorough understanding of both text watermarking and model
fingerprinting technologies in the era of LLMs, thereby fostering further
advances in protecting their intellectual property.