Proteção de Direitos Autorais para Modelos de Linguagem de Grande Escala: Uma Análise de Métodos, Desafios e Tendências
Copyright Protection for Large Language Models: A Survey of Methods, Challenges, and Trends
August 15, 2025
Autores: Zhenhua Xu, Xubin Yue, Zhebo Wang, Qichen Liu, Xixiang Zhao, Jingxuan Zhang, Wenjun Zeng, Wengpeng Xing, Dezhang Kong, Changting Lin, Meng Han
cs.AI
Resumo
A proteção de direitos autorais para grandes modelos de linguagem é de extrema importância, considerando seus custos substanciais de desenvolvimento, valor proprietário e potencial para uso indevido. Pesquisas existentes têm se concentrado predominantemente em técnicas para rastrear conteúdo gerado por LLMs — especificamente, marcação d'água em texto — enquanto uma exploração sistemática de métodos para proteger os próprios modelos (ou seja, marcação d'água em modelos e impressão digital de modelos) ainda está ausente. Além disso, as relações e distinções entre marcação d'água em texto, marcação d'água em modelos e impressão digital de modelos não foram clarificadas de forma abrangente. Este trabalho apresenta uma revisão detalhada do estado atual das tecnologias de proteção de direitos autorais para LLMs, com foco em impressão digital de modelos, abordando os seguintes aspectos: (1) esclarecendo a conexão conceitual da marcação d'água em texto para marcação d'água em modelos e impressão digital, adotando uma terminologia unificada que incorpora a marcação d'água em modelos no âmbito mais amplo da impressão digital; (2) fornecendo uma visão geral e comparação de diversas técnicas de marcação d'água em texto, destacando casos em que tais métodos podem funcionar como impressão digital de modelos; (3) categorizando e comparando sistematicamente as abordagens existentes de impressão digital de modelos para proteção de direitos autorais de LLMs; (4) apresentando, pela primeira vez, técnicas para transferência e remoção de impressão digital; (5) resumindo métricas de avaliação para impressões digitais de modelos, incluindo eficácia, inocuidade, robustez, discrição e confiabilidade; e (6) discutindo desafios em aberto e direções futuras de pesquisa. Esta revisão visa oferecer aos pesquisadores uma compreensão aprofundada tanto das tecnologias de marcação d'água em texto quanto de impressão digital de modelos na era dos LLMs, promovendo assim avanços adicionais na proteção de sua propriedade intelectual.
English
Copyright protection for large language models is of critical importance,
given their substantial development costs, proprietary value, and potential for
misuse. Existing surveys have predominantly focused on techniques for tracing
LLM-generated content-namely, text watermarking-while a systematic exploration
of methods for protecting the models themselves (i.e., model watermarking and
model fingerprinting) remains absent. Moreover, the relationships and
distinctions among text watermarking, model watermarking, and model
fingerprinting have not been comprehensively clarified. This work presents a
comprehensive survey of the current state of LLM copyright protection
technologies, with a focus on model fingerprinting, covering the following
aspects: (1) clarifying the conceptual connection from text watermarking to
model watermarking and fingerprinting, and adopting a unified terminology that
incorporates model watermarking into the broader fingerprinting framework; (2)
providing an overview and comparison of diverse text watermarking techniques,
highlighting cases where such methods can function as model fingerprinting; (3)
systematically categorizing and comparing existing model fingerprinting
approaches for LLM copyright protection; (4) presenting, for the first time,
techniques for fingerprint transfer and fingerprint removal; (5) summarizing
evaluation metrics for model fingerprints, including effectiveness,
harmlessness, robustness, stealthiness, and reliability; and (6) discussing
open challenges and future research directions. This survey aims to offer
researchers a thorough understanding of both text watermarking and model
fingerprinting technologies in the era of LLMs, thereby fostering further
advances in protecting their intellectual property.