Безопасная малошаговая генерация посредством редактирования скорости

Аннотация

Потоковое согласование (flow matching) недавно зарекомендовало себя как мощная парадигма для современной генерации изображений по текстовым описаниям (T2I), обеспечивающая высокое качество при малом количестве шагов дискретизации. Поскольку такие модели всё активнее внедряются в реальные приложения, обеспечение безопасной и бесконфликтной генерации контента становится критически важным требованием. Однако адаптация методов обеспечения безопасности и удаления концептов к этой новой парадигме генерации остаётся открытой задачей. В частности, предыдущие методы в значительной степени опирались либо на итеративное управление траекторией на протяжении нескольких шагов шумоподавления, либо на манипуляции эмбеддингами запросов на основе CLIP. Эти допущения создают фундаментальные ограничения для безопасности в T2I-генерации на основе потокового согласования, где ограниченное число шагов дискретизации не позволяет проводить итеративные коррекции, а современные контекстно-ориентированные текстовые энкодеры снижают эффективность вмешательства на уровне эмбеддингов. В данной работе мы предлагаем VESFlow — метод обеспечения безопасности без обучения, адаптированный для потокового согласования с крайне малым количеством шагов дискретизации. Используя тот факт, что модели потокового согласования обучаются аппроксимировать маржинальную скорость, мы непосредственно редактируем поле скорости посредством апостериорной вероятности при условии безопасности. VESFlow направляет траекторию к безопасным результатам, оставляя исходный запрос без изменений. На основе наблюдения, что VESFlow не изменяет выходные данные при безобидных запросах, мы дополнительно вводим фильтрацию на основе оценки риска, которая позволяет обойти редактирование скорости для снижения вычислительных затрат, сохраняя при этом генерацию по безопасным запросам. Основываясь на этой фильтрации, мы предлагаем VESFlow+ — более сильную версию VESFlow, которая не только редактирует скорость в безопасном направлении, но и отталкивает её от небезопасного. Экспериментальные результаты показывают, что VESFlow+ удаляет целевой концепт, снижая уровень успешных атак по метрике NudeNet до 6.3% на наборе Ring-A-Bell и до 6.8% на MMA-Diffusion для модели MeanFlow с 4 шагами, сохраняя при этом верность результатов для безобидных запросов.

English

Flow matching has recently emerged as a strong paradigm for state-of-the-art text-to-image (T2I) generation, enabling high-quality generation with a small number of sampling steps. As these models are increasingly integrated into real-world applications, ensuring safe and non-sensitive content generation has become a critical requirement. However, adapting safety and concept removal methods to this new generation framework remains an open challenge. Specifically, prior methods largely rely on iterative trajectory steering across a number of denoising steps or on CLIP-centric prompt embedding manipulation. These design assumptions pose fundamental bottlenecks for safety in flow matching-based T2I generation, where limited sampling steps constrain iterative correction and modern context-aware text encoders diminish the effectiveness of embedding-level interventions. In this paper, we propose VESFlow, a training-free safety method tailored to flow matching with extremely few sampling steps. Leveraging the fact that flow matching models learn the marginal velocity, we directly edit the velocity field via a safe-conditional posterior. VESFlow steers the trajectory toward safe outputs while leaving the conditioning prompt unchanged. Building on the observation that VESFlow leaves outputs unchanged under benign prompts, we further introduce a risk score-based filtering that bypasses velocity editing to reduce computational cost while preserving benign prompt generation. Based on this filtering, we propose VESFlow+, a stronger variant of VESFlow that not only edits the velocity toward the safe direction, but also pushes it away from the unsafe direction. Experimental results show that VESFlow+ removes the target concept, reducing the attack success rate by NudeNet to 6.3% on Ring-A-Bell and 6.8% on MMA-Diffusion on the 4-step MeanFlow model, while preserving fidelity on benign prompts.