Génération Sûre en Peu d'Étapes par Édition de Vélocité

Résumé

Le flow matching a récemment émergé comme un paradigme puissant pour la génération texte-image (T2I) de pointe, permettant une génération de haute qualité avec un faible nombre d'étapes d'échantillonnage. Alors que ces modèles sont de plus en plus intégrés dans des applications concrètes, garantir une génération de contenu sûr et non sensible est devenu une exigence critique. Cependant, adapter les méthodes de sécurité et de suppression de concepts à ce nouveau cadre de génération reste un défi ouvert. En particulier, les méthodes antérieures reposent largement sur un guidage itératif de la trajectoire à travers un certain nombre d'étapes de débruitage ou sur une manipulation d'embedding de prompt centrée sur CLIP. Ces hypothèses de conception posent des goulots d'étranglement fondamentaux pour la sécurité dans la génération T2I basée sur le flow matching, où le nombre limité d'étapes d'échantillonnage contraint la correction itérative et où les encodeurs de texte modernes sensibles au contexte réduisent l'efficacité des interventions au niveau des embeddings. Dans cet article, nous proposons VESFlow, une méthode de sécurité sans entraînement adaptée au flow matching avec un nombre extrêmement faible d'étapes d'échantillonnage. En exploitant le fait que les modèles de flow matching apprennent la vitesse marginale, nous modifions directement le champ de vitesse via un postérieur conditionnel sécurisé. VESFlow oriente la trajectoire vers des sorties sûres tout en laissant le prompt de conditionnement inchangé. En nous appuyant sur l'observation que VESFlow laisse les sorties inchangées sous des prompts bénins, nous introduisons en outre un filtrage basé sur un score de risque qui contourne la modification de vitesse pour réduire le coût de calcul tout en préservant la génération de prompts bénins. Sur la base de ce filtrage, nous proposons VESFlow+, une variante plus forte de VESFlow qui non seulement modifie la vitesse dans la direction sûre, mais aussi l'éloigne de la direction non sûre. Les résultats expérimentaux montrent que VESFlow+ supprime le concept cible, réduisant le taux de succès d'attaque par NudeNet à 6,3 % sur Ring-A-Bell et à 6,8 % sur MMA-Diffusion avec le modèle MeanFlow en 4 étapes, tout en préservant la fidélité sur les prompts bénins.

English

Flow matching has recently emerged as a strong paradigm for state-of-the-art text-to-image (T2I) generation, enabling high-quality generation with a small number of sampling steps. As these models are increasingly integrated into real-world applications, ensuring safe and non-sensitive content generation has become a critical requirement. However, adapting safety and concept removal methods to this new generation framework remains an open challenge. Specifically, prior methods largely rely on iterative trajectory steering across a number of denoising steps or on CLIP-centric prompt embedding manipulation. These design assumptions pose fundamental bottlenecks for safety in flow matching-based T2I generation, where limited sampling steps constrain iterative correction and modern context-aware text encoders diminish the effectiveness of embedding-level interventions. In this paper, we propose VESFlow, a training-free safety method tailored to flow matching with extremely few sampling steps. Leveraging the fact that flow matching models learn the marginal velocity, we directly edit the velocity field via a safe-conditional posterior. VESFlow steers the trajectory toward safe outputs while leaving the conditioning prompt unchanged. Building on the observation that VESFlow leaves outputs unchanged under benign prompts, we further introduce a risk score-based filtering that bypasses velocity editing to reduce computational cost while preserving benign prompt generation. Based on this filtering, we propose VESFlow+, a stronger variant of VESFlow that not only edits the velocity toward the safe direction, but also pushes it away from the unsafe direction. Experimental results show that VESFlow+ removes the target concept, reducing the attack success rate by NudeNet to 6.3% on Ring-A-Bell and 6.8% on MMA-Diffusion on the 4-step MeanFlow model, while preserving fidelity on benign prompts.