Mitigazione Certificata dell'Infrazione del Copyright nei Casi Peggiori per i Modelli Linguistici di Grandi Dimensioni
Certified Mitigation of Worst-Case LLM Copyright Infringement
April 22, 2025
Autori: Jingyu Zhang, Jiacan Yu, Marc Marone, Benjamin Van Durme, Daniel Khashabi
cs.AI
Abstract
L'esposizione dei grandi modelli linguistici (LLM) a materiale protetto da copyright durante la fase di pre-addestramento solleva preoccupazioni riguardo a potenziali violazioni involontarie del copyright dopo il dispiegamento. Ciò ha portato allo sviluppo di metodi di "rimozione del copyright", approcci post-addestramento mirati a prevenire che i modelli generino contenuti sostanzialmente simili a quelli protetti. Sebbene gli attuali approcci di mitigazione siano in qualche modo efficaci per i rischi medi, dimostriamo che trascurano i rischi peggiori di violazione del copyright, evidenziati dalla presenza di citazioni lunghe e verbatim tratte da fonti protette. Proponiamo BloomScrub, un approccio sorprendentemente semplice ma altamente efficace in fase di inferenza, che fornisce una rimozione certificata del copyright. Il nostro metodo intercala ripetutamente il rilevamento di citazioni con tecniche di riscrittura per trasformare segmenti potenzialmente infrangenti. Sfruttando efficienti strutture dati (filtri di Bloom), il nostro approccio consente uno screening scalabile del copyright anche per corpora su larga scala nel mondo reale. Quando le citazioni oltre una certa soglia di lunghezza non possono essere rimosse, il sistema può astenersi dal rispondere, offrendo una riduzione certificata del rischio. I risultati sperimentali mostrano che BloomScrub riduce il rischio di violazione, preserva l'utilità e si adatta a diversi livelli di rigore nell'applicazione con un'astensione adattiva. I nostri risultati suggeriscono che metodi leggeri in fase di inferenza possono essere sorprendentemente efficaci per la prevenzione del copyright.
English
The exposure of large language models (LLMs) to copyrighted material during
pre-training raises concerns about unintentional copyright infringement post
deployment. This has driven the development of "copyright takedown" methods,
post-training approaches aimed at preventing models from generating content
substantially similar to copyrighted ones. While current mitigation approaches
are somewhat effective for average-case risks, we demonstrate that they
overlook worst-case copyright risks exhibits by the existence of long, verbatim
quotes from copyrighted sources. We propose BloomScrub, a remarkably simple yet
highly effective inference-time approach that provides certified copyright
takedown. Our method repeatedly interleaves quote detection with rewriting
techniques to transform potentially infringing segments. By leveraging
efficient data sketches (Bloom filters), our approach enables scalable
copyright screening even for large-scale real-world corpora. When quotes beyond
a length threshold cannot be removed, the system can abstain from responding,
offering certified risk reduction. Experimental results show that BloomScrub
reduces infringement risk, preserves utility, and accommodates different levels
of enforcement stringency with adaptive abstention. Our results suggest that
lightweight, inference-time methods can be surprisingly effective for copyright
prevention.