ChatPaper.aiChatPaper

Сертифицированное смягчение наихудшего случая нарушения авторских прав в языковых моделях

Certified Mitigation of Worst-Case LLM Copyright Infringement

April 22, 2025
Авторы: Jingyu Zhang, Jiacan Yu, Marc Marone, Benjamin Van Durme, Daniel Khashabi
cs.AI

Аннотация

Использование защищенных авторским правом материалов при предварительном обучении больших языковых моделей (LLM) вызывает опасения по поводу непреднамеренного нарушения авторских прав после их внедрения. Это стимулировало разработку методов "удаления авторского контента" — подходов, применяемых после обучения и направленных на предотвращение генерации моделями контента, существенно схожего с защищенным. Хотя существующие методы смягчения рисков эффективны в среднем, мы показываем, что они упускают из виду наихудшие сценарии нарушения авторских прав, которые проявляются в виде длинных дословных цитат из защищенных источников. Мы предлагаем BloomScrub — удивительно простой, но высокоэффективный подход, применяемый на этапе вывода, который обеспечивает гарантированное удаление авторского контента. Наш метод последовательно сочетает обнаружение цитат с техниками переписывания для преобразования потенциально нарушающих сегментов. Используя эффективные структуры данных (фильтры Блума), наш подход позволяет масштабировать проверку на авторские права даже для крупных реальных корпусов. Если цитаты, превышающие пороговую длину, не могут быть удалены, система может воздержаться от ответа, обеспечивая гарантированное снижение риска. Экспериментальные результаты показывают, что BloomScrub снижает риск нарушения авторских прав, сохраняет полезность модели и адаптируется к различным уровням строгости применения с помощью адаптивного воздержания. Наши результаты свидетельствуют, что легковесные методы, применяемые на этапе вывода, могут быть удивительно эффективными для предотвращения нарушений авторских прав.
English
The exposure of large language models (LLMs) to copyrighted material during pre-training raises concerns about unintentional copyright infringement post deployment. This has driven the development of "copyright takedown" methods, post-training approaches aimed at preventing models from generating content substantially similar to copyrighted ones. While current mitigation approaches are somewhat effective for average-case risks, we demonstrate that they overlook worst-case copyright risks exhibits by the existence of long, verbatim quotes from copyrighted sources. We propose BloomScrub, a remarkably simple yet highly effective inference-time approach that provides certified copyright takedown. Our method repeatedly interleaves quote detection with rewriting techniques to transform potentially infringing segments. By leveraging efficient data sketches (Bloom filters), our approach enables scalable copyright screening even for large-scale real-world corpora. When quotes beyond a length threshold cannot be removed, the system can abstain from responding, offering certified risk reduction. Experimental results show that BloomScrub reduces infringement risk, preserves utility, and accommodates different levels of enforcement stringency with adaptive abstention. Our results suggest that lightweight, inference-time methods can be surprisingly effective for copyright prevention.

Summary

AI-Generated Summary

PDF61April 30, 2025