Mitigação Certificada de Infração de Direitos Autorais em Pior Cenário de LLM
Certified Mitigation of Worst-Case LLM Copyright Infringement
April 22, 2025
Autores: Jingyu Zhang, Jiacan Yu, Marc Marone, Benjamin Van Durme, Daniel Khashabi
cs.AI
Resumo
A exposição de grandes modelos de linguagem (LLMs) a material protegido por direitos autorais durante o pré-treinamento levanta preocupações sobre violações involuntárias de direitos autorais após a implantação. Isso impulsionou o desenvolvimento de métodos de "remoção de direitos autorais", abordagens pós-treinamento destinadas a impedir que os modelos gerem conteúdo substancialmente semelhante ao protegido por direitos autorais. Embora as abordagens atuais de mitigação sejam relativamente eficazes para riscos médios, demonstramos que elas negligenciam os riscos extremos de violação de direitos autorais evidenciados pela existência de citações longas e literais de fontes protegidas. Propomos o BloomScrub, uma abordagem incrivelmente simples, mas altamente eficiente, aplicada durante a inferência, que oferece uma remoção certificada de direitos autorais. Nosso método intercala repetidamente a detecção de citações com técnicas de reescrita para transformar segmentos potencialmente infratores. Ao aproveitar esboços de dados eficientes (filtros de Bloom), nossa abordagem permite uma triagem escalável de direitos autorais, mesmo para corpora em grande escala do mundo real. Quando citações além de um limite de comprimento não podem ser removidas, o sistema pode se abster de responder, oferecendo uma redução certificada de risco. Resultados experimentais mostram que o BloomScrub reduz o risco de infração, preserva a utilidade e acomoda diferentes níveis de rigor de aplicação com abstenção adaptativa. Nossos resultados sugerem que métodos leves, aplicados durante a inferência, podem ser surpreendentemente eficazes para a prevenção de violações de direitos autorais.
English
The exposure of large language models (LLMs) to copyrighted material during
pre-training raises concerns about unintentional copyright infringement post
deployment. This has driven the development of "copyright takedown" methods,
post-training approaches aimed at preventing models from generating content
substantially similar to copyrighted ones. While current mitigation approaches
are somewhat effective for average-case risks, we demonstrate that they
overlook worst-case copyright risks exhibits by the existence of long, verbatim
quotes from copyrighted sources. We propose BloomScrub, a remarkably simple yet
highly effective inference-time approach that provides certified copyright
takedown. Our method repeatedly interleaves quote detection with rewriting
techniques to transform potentially infringing segments. By leveraging
efficient data sketches (Bloom filters), our approach enables scalable
copyright screening even for large-scale real-world corpora. When quotes beyond
a length threshold cannot be removed, the system can abstain from responding,
offering certified risk reduction. Experimental results show that BloomScrub
reduces infringement risk, preserves utility, and accommodates different levels
of enforcement stringency with adaptive abstention. Our results suggest that
lightweight, inference-time methods can be surprisingly effective for copyright
prevention.Summary
AI-Generated Summary