Mitigación Certificada de Infracción de Derechos de Autor en el Peor de los Casos para Modelos de Lenguaje Grandes (LLM)
Certified Mitigation of Worst-Case LLM Copyright Infringement
April 22, 2025
Autores: Jingyu Zhang, Jiacan Yu, Marc Marone, Benjamin Van Durme, Daniel Khashabi
cs.AI
Resumen
La exposición de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) a material protegido por derechos de autor durante el preentrenamiento plantea preocupaciones sobre la infracción involuntaria de derechos de autor después del despliegue. Esto ha impulsado el desarrollo de métodos de "eliminación de derechos de autor", enfoques posteriores al entrenamiento destinados a evitar que los modelos generen contenido sustancialmente similar al protegido. Si bien los enfoques actuales de mitigación son algo efectivos para los riesgos promedio, demostramos que pasan por alto los riesgos extremos de infracción de derechos de autor, evidenciados por la existencia de citas largas y textuales de fuentes protegidas. Proponemos BloomScrub, un enfoque notablemente simple pero altamente efectivo en tiempo de inferencia que ofrece una eliminación certificada de derechos de autor. Nuestro método intercala repetidamente la detección de citas con técnicas de reescritura para transformar segmentos potencialmente infractores. Al aprovechar esbozos de datos eficientes (filtros Bloom), nuestro enfoque permite un cribado escalable de derechos de autor incluso para corpus del mundo real a gran escala. Cuando las citas que superan un umbral de longitud no pueden eliminarse, el sistema puede abstenerse de responder, ofreciendo una reducción certificada del riesgo. Los resultados experimentales muestran que BloomScrub reduce el riesgo de infracción, preserva la utilidad y se adapta a diferentes niveles de rigurosidad en la aplicación mediante la abstención adaptativa. Nuestros resultados sugieren que los métodos ligeros en tiempo de inferencia pueden ser sorprendentemente efectivos para la prevención de infracciones de derechos de autor.
English
The exposure of large language models (LLMs) to copyrighted material during
pre-training raises concerns about unintentional copyright infringement post
deployment. This has driven the development of "copyright takedown" methods,
post-training approaches aimed at preventing models from generating content
substantially similar to copyrighted ones. While current mitigation approaches
are somewhat effective for average-case risks, we demonstrate that they
overlook worst-case copyright risks exhibits by the existence of long, verbatim
quotes from copyrighted sources. We propose BloomScrub, a remarkably simple yet
highly effective inference-time approach that provides certified copyright
takedown. Our method repeatedly interleaves quote detection with rewriting
techniques to transform potentially infringing segments. By leveraging
efficient data sketches (Bloom filters), our approach enables scalable
copyright screening even for large-scale real-world corpora. When quotes beyond
a length threshold cannot be removed, the system can abstain from responding,
offering certified risk reduction. Experimental results show that BloomScrub
reduces infringement risk, preserves utility, and accommodates different levels
of enforcement stringency with adaptive abstention. Our results suggest that
lightweight, inference-time methods can be surprisingly effective for copyright
prevention.Summary
AI-Generated Summary