Сертифицированное смягчение наихудшего случая нарушения авторских прав в языковых моделях
Certified Mitigation of Worst-Case LLM Copyright Infringement
April 22, 2025
Авторы: Jingyu Zhang, Jiacan Yu, Marc Marone, Benjamin Van Durme, Daniel Khashabi
cs.AI
Аннотация
Использование защищенных авторским правом материалов при предварительном обучении больших языковых моделей (LLM) вызывает опасения по поводу непреднамеренного нарушения авторских прав после их внедрения. Это стимулировало разработку методов "удаления авторского контента" — подходов, применяемых после обучения и направленных на предотвращение генерации моделями контента, существенно схожего с защищенным. Хотя существующие методы смягчения рисков эффективны в среднем, мы показываем, что они упускают из виду наихудшие сценарии нарушения авторских прав, которые проявляются в виде длинных дословных цитат из защищенных источников. Мы предлагаем BloomScrub — удивительно простой, но высокоэффективный подход, применяемый на этапе вывода, который обеспечивает гарантированное удаление авторского контента. Наш метод последовательно сочетает обнаружение цитат с техниками переписывания для преобразования потенциально нарушающих сегментов. Используя эффективные структуры данных (фильтры Блума), наш подход позволяет масштабировать проверку на авторские права даже для крупных реальных корпусов. Если цитаты, превышающие пороговую длину, не могут быть удалены, система может воздержаться от ответа, обеспечивая гарантированное снижение риска. Экспериментальные результаты показывают, что BloomScrub снижает риск нарушения авторских прав, сохраняет полезность модели и адаптируется к различным уровням строгости применения с помощью адаптивного воздержания. Наши результаты свидетельствуют, что легковесные методы, применяемые на этапе вывода, могут быть удивительно эффективными для предотвращения нарушений авторских прав.
English
The exposure of large language models (LLMs) to copyrighted material during
pre-training raises concerns about unintentional copyright infringement post
deployment. This has driven the development of "copyright takedown" methods,
post-training approaches aimed at preventing models from generating content
substantially similar to copyrighted ones. While current mitigation approaches
are somewhat effective for average-case risks, we demonstrate that they
overlook worst-case copyright risks exhibits by the existence of long, verbatim
quotes from copyrighted sources. We propose BloomScrub, a remarkably simple yet
highly effective inference-time approach that provides certified copyright
takedown. Our method repeatedly interleaves quote detection with rewriting
techniques to transform potentially infringing segments. By leveraging
efficient data sketches (Bloom filters), our approach enables scalable
copyright screening even for large-scale real-world corpora. When quotes beyond
a length threshold cannot be removed, the system can abstain from responding,
offering certified risk reduction. Experimental results show that BloomScrub
reduces infringement risk, preserves utility, and accommodates different levels
of enforcement stringency with adaptive abstention. Our results suggest that
lightweight, inference-time methods can be surprisingly effective for copyright
prevention.Summary
AI-Generated Summary