Veilige generatie in weinig stappen via snelheidsbewerking

Samenvatting

Flow matching is recentelijk naar voren gekomen als een krachtig paradigma voor state-of-the-art text-to-image (T2I) generatie, waardoor hoogwaardige generatie met een klein aantal bemonsteringsstappen mogelijk wordt. Naarmate deze modellen steeds meer worden geïntegreerd in praktijktoepassingen, wordt het waarborgen van veilige en niet-gevoelige inhoudsgeneratie een kritieke vereiste. Het aanpassen van veiligheids- en conceptverwijderingsmethoden aan dit nieuwe generatiekader blijft echter een open uitdaging. In het bijzonder zijn eerdere methoden grotendeels afhankelijk van iteratieve trajectsturing over een aantal denoising-stappen of van CLIP-gecentreerde promptembeddingmanipulatie. Deze ontwerpveronderstellingen vormen fundamentele knelpunten voor veiligheid in flow matching-gebaseerde T2I-generatie, waar beperkte bemonsteringsstappen iteratieve correctie beperken en moderne contextbewuste tekstencoders de effectiviteit van interventies op embeddingniveau verminderen. In dit artikel stellen we VESFlow voor, een trainingsvrije veiligheidsmethode die is toegesneden op flow matching met extreem weinig bemonsteringsstappen. Door gebruik te maken van het feit dat flow matching-modellen de marginale snelheid leren, bewerken we het snelheidsveld direct via een veiligheidsconditionele posterior. VESFlow stuurt het traject naar veilige outputs terwijl de conditioneringsprompt ongewijzigd blijft. Voortbouwend op de observatie dat VESFlow outputs onder goedaardige prompts ongewijzigd laat, introduceren we verder een op risicoscore gebaseerde filtering die snelheidsbewerking omzeilt om de rekenkosten te verlagen terwijl de generatie van goedaardige prompts behouden blijft. Op basis van deze filtering stellen we VESFlow+ voor, een sterkere variant van VESFlow die niet alleen de snelheid in de veilige richting bewerkt, maar ook wegduwt van de onveilige richting. Experimentele resultaten tonen aan dat VESFlow+ het doelconcept verwijdert, waardoor de aanvalsucceskans door NudeNet wordt teruggebracht tot 6,3% op Ring-A-Bell en 6,8% op MMA-Diffusion bij het 4-staps MeanFlow-model, terwijl de getrouwheid aan goedaardige prompts behouden blijft.

English

Flow matching has recently emerged as a strong paradigm for state-of-the-art text-to-image (T2I) generation, enabling high-quality generation with a small number of sampling steps. As these models are increasingly integrated into real-world applications, ensuring safe and non-sensitive content generation has become a critical requirement. However, adapting safety and concept removal methods to this new generation framework remains an open challenge. Specifically, prior methods largely rely on iterative trajectory steering across a number of denoising steps or on CLIP-centric prompt embedding manipulation. These design assumptions pose fundamental bottlenecks for safety in flow matching-based T2I generation, where limited sampling steps constrain iterative correction and modern context-aware text encoders diminish the effectiveness of embedding-level interventions. In this paper, we propose VESFlow, a training-free safety method tailored to flow matching with extremely few sampling steps. Leveraging the fact that flow matching models learn the marginal velocity, we directly edit the velocity field via a safe-conditional posterior. VESFlow steers the trajectory toward safe outputs while leaving the conditioning prompt unchanged. Building on the observation that VESFlow leaves outputs unchanged under benign prompts, we further introduce a risk score-based filtering that bypasses velocity editing to reduce computational cost while preserving benign prompt generation. Based on this filtering, we propose VESFlow+, a stronger variant of VESFlow that not only edits the velocity toward the safe direction, but also pushes it away from the unsafe direction. Experimental results show that VESFlow+ removes the target concept, reducing the attack success rate by NudeNet to 6.3% on Ring-A-Bell and 6.8% on MMA-Diffusion on the 4-step MeanFlow model, while preserving fidelity on benign prompts.