Поиск Дори: Запоминание в моделях диффузии текст-изображение менее локализовано, чем предполагалось
Finding Dori: Memorization in Text-to-Image Diffusion Models Is Less Local Than Assumed
July 22, 2025
Авторы: Antoni Kowalczuk, Dominik Hintersdorf, Lukas Struppek, Kristian Kersting, Adam Dziedzic, Franziska Boenisch
cs.AI
Аннотация
Модели диффузии для генерации изображений по тексту (DMs) достигли значительных успехов в создании изображений. Однако сохраняются опасения относительно конфиденциальности данных и интеллектуальной собственности из-за их способности непреднамеренно запоминать и воспроизводить обучающие данные. Недавние усилия по смягчению этих рисков были сосредоточены на выявлении и удалении весов, ответственных за запуск воспроизведения, основываясь на предположении, что запоминание может быть локализовано. Наше исследование оценивает устойчивость этих подходов, основанных на удалении весов. Мы демонстрируем, что даже после удаления весов незначительные изменения текстовых эмбеддингов входных запросов достаточно для повторного запуска воспроизведения данных, что подчеркивает хрупкость этих защитных мер. Кроме того, мы оспариваем фундаментальное предположение о локализации запоминания, показывая, что воспроизведение может быть запущено из различных областей пространства текстовых эмбеддингов и следует разным путям в модели. Наши результаты указывают на недостаточность существующих стратегий смягчения и подчеркивают необходимость методов, которые действительно удаляют запомненное содержимое, а не пытаются подавить его извлечение. В качестве первого шага в этом направлении мы представляем новый метод состязательной тонкой настройки, который итеративно ищет триггеры воспроизведения и обновляет модель для повышения устойчивости. Наше исследование предоставляет новые взгляды на природу запоминания в текстово-изобразительных DMs и основу для создания более надежных и соответствующих нормам генеративных ИИ.
English
Text-to-image diffusion models (DMs) have achieved remarkable success in
image generation. However, concerns about data privacy and intellectual
property remain due to their potential to inadvertently memorize and replicate
training data. Recent mitigation efforts have focused on identifying and
pruning weights responsible for triggering replication, based on the assumption
that memorization can be localized. Our research assesses the robustness of
these pruning-based approaches. We demonstrate that even after pruning, minor
adjustments to text embeddings of input prompts are sufficient to re-trigger
data replication, highlighting the fragility of these defenses. Furthermore, we
challenge the fundamental assumption of memorization locality, by showing that
replication can be triggered from diverse locations within the text embedding
space, and follows different paths in the model. Our findings indicate that
existing mitigation strategies are insufficient and underscore the need for
methods that truly remove memorized content, rather than attempting to suppress
its retrieval. As a first step in this direction, we introduce a novel
adversarial fine-tuning method that iteratively searches for replication
triggers and updates the model to increase robustness. Through our research, we
provide fresh insights into the nature of memorization in text-to-image DMs and
a foundation for building more trustworthy and compliant generative AI.