Generación segura en pocos pasos mediante edición de velocidad

Resumen

El flow matching ha surgido recientemente como un paradigma sólido para la generación de texto a imagen (T2I) de última generación, permitiendo una generación de alta calidad con un número reducido de pasos de muestreo. A medida que estos modelos se integran cada vez más en aplicaciones del mundo real, garantizar una generación de contenido seguro y no sensible se ha convertido en un requisito crítico. Sin embargo, adaptar los métodos de seguridad y eliminación de conceptos a este nuevo marco de generación sigue siendo un desafío abierto. En concreto, los métodos anteriores dependen en gran medida de la dirección iterativa de la trayectoria a través de varios pasos de eliminación de ruido o de la manipulación del embedding del prompt centrada en CLIP. Estos supuestos de diseño plantean cuellos de botella fundamentales para la seguridad en la generación T2I basada en flow matching, donde los pasos de muestreo limitados restringen la corrección iterativa y los codificadores de texto modernos sensibles al contexto reducen la efectividad de las intervenciones a nivel de embedding. En este artículo, proponemos VESFlow, un método de seguridad sin entrenamiento adaptado al flow matching con un número extremadamente reducido de pasos de muestreo. Aprovechando el hecho de que los modelos de flow matching aprenden la velocidad marginal, editamos directamente el campo de velocidad mediante una posteriori condicional segura. VESFlow dirige la trayectoria hacia salidas seguras mientras deja el prompt condicionante sin cambios. Basándonos en la observación de que VESFlow deja las salidas sin cambios bajo prompts benignos, introducimos además un filtrado basado en puntuación de riesgo que omite la edición de velocidad para reducir el costo computacional mientras preserva la generación de prompts benignos. Basándonos en este filtrado, proponemos VESFlow+, una variante más potente de VESFlow que no solo edita la velocidad hacia la dirección segura, sino que también la aleja de la dirección no segura. Los resultados experimentales muestran que VESFlow+ elimina el concepto objetivo, reduciendo la tasa de éxito de ataque por NudeNet al 6.3% en Ring-A-Bell y al 6.8% en MMA-Diffusion en el modelo MeanFlow de 4 pasos, mientras preserva la fidelidad en prompts benignos.

English

Flow matching has recently emerged as a strong paradigm for state-of-the-art text-to-image (T2I) generation, enabling high-quality generation with a small number of sampling steps. As these models are increasingly integrated into real-world applications, ensuring safe and non-sensitive content generation has become a critical requirement. However, adapting safety and concept removal methods to this new generation framework remains an open challenge. Specifically, prior methods largely rely on iterative trajectory steering across a number of denoising steps or on CLIP-centric prompt embedding manipulation. These design assumptions pose fundamental bottlenecks for safety in flow matching-based T2I generation, where limited sampling steps constrain iterative correction and modern context-aware text encoders diminish the effectiveness of embedding-level interventions. In this paper, we propose VESFlow, a training-free safety method tailored to flow matching with extremely few sampling steps. Leveraging the fact that flow matching models learn the marginal velocity, we directly edit the velocity field via a safe-conditional posterior. VESFlow steers the trajectory toward safe outputs while leaving the conditioning prompt unchanged. Building on the observation that VESFlow leaves outputs unchanged under benign prompts, we further introduce a risk score-based filtering that bypasses velocity editing to reduce computational cost while preserving benign prompt generation. Based on this filtering, we propose VESFlow+, a stronger variant of VESFlow that not only edits the velocity toward the safe direction, but also pushes it away from the unsafe direction. Experimental results show that VESFlow+ removes the target concept, reducing the attack success rate by NudeNet to 6.3% on Ring-A-Bell and 6.8% on MMA-Diffusion on the 4-step MeanFlow model, while preserving fidelity on benign prompts.