ChatPaper.aiChatPaper

Atténuation certifiée des cas extrêmes de violation de droits d'auteur par les LLM

Certified Mitigation of Worst-Case LLM Copyright Infringement

April 22, 2025
Auteurs: Jingyu Zhang, Jiacan Yu, Marc Marone, Benjamin Van Durme, Daniel Khashabi
cs.AI

Résumé

L'exposition des grands modèles de langage (LLM) à du matériel protégé par des droits d'auteur pendant la phase de pré-entraînement soulève des inquiétudes concernant les infractions involontaires aux droits d'auteur après leur déploiement. Cela a conduit au développement de méthodes de "suppression des droits d'auteur", des approches post-entraînement visant à empêcher les modèles de générer un contenu substantiellement similaire à celui protégé. Bien que les approches d'atténuation actuelles soient relativement efficaces pour les risques moyens, nous démontrons qu'elles négligent les risques extrêmes liés aux droits d'auteur, mis en évidence par l'existence de longues citations textuelles provenant de sources protégées. Nous proposons BloomScrub, une approche remarquablement simple mais hautement efficace au moment de l'inférence, qui offre une suppression certifiée des droits d'auteur. Notre méthode entrelace de manière répétée la détection de citations avec des techniques de réécriture pour transformer les segments potentiellement infracteurs. En exploitant des esquisses de données efficaces (filtres de Bloom), notre approche permet un filtrage des droits d'auteur scalable, même pour des corpus de grande taille dans le monde réel. Lorsque des citations dépassant un seuil de longueur ne peuvent pas être supprimées, le système peut s'abstenir de répondre, offrant ainsi une réduction certifiée des risques. Les résultats expérimentaux montrent que BloomScrub réduit le risque d'infraction, préserve l'utilité et s'adapte à différents niveaux de rigueur d'application grâce à une abstention adaptative. Nos résultats suggèrent que des méthodes légères, appliquées au moment de l'inférence, peuvent être étonnamment efficaces pour la prévention des infractions aux droits d'auteur.
English
The exposure of large language models (LLMs) to copyrighted material during pre-training raises concerns about unintentional copyright infringement post deployment. This has driven the development of "copyright takedown" methods, post-training approaches aimed at preventing models from generating content substantially similar to copyrighted ones. While current mitigation approaches are somewhat effective for average-case risks, we demonstrate that they overlook worst-case copyright risks exhibits by the existence of long, verbatim quotes from copyrighted sources. We propose BloomScrub, a remarkably simple yet highly effective inference-time approach that provides certified copyright takedown. Our method repeatedly interleaves quote detection with rewriting techniques to transform potentially infringing segments. By leveraging efficient data sketches (Bloom filters), our approach enables scalable copyright screening even for large-scale real-world corpora. When quotes beyond a length threshold cannot be removed, the system can abstain from responding, offering certified risk reduction. Experimental results show that BloomScrub reduces infringement risk, preserves utility, and accommodates different levels of enforcement stringency with adaptive abstention. Our results suggest that lightweight, inference-time methods can be surprisingly effective for copyright prevention.

Summary

AI-Generated Summary

PDF71April 30, 2025