Sichere Generierung mit wenigen Schritten durch Geschwindigkeitseditierung

Zusammenfassung

Flow-Matching hat sich kürzlich als robustes Paradigma für modernste Text-zu-Bild-Generierung (T2I) etabliert, das qualitativ hochwertige Ergebnisse mit nur wenigen Abtastschritten ermöglicht. Da diese Modelle zunehmend in reale Anwendungen integriert werden, wird die Gewährleistung einer sicheren und nichtsensiblen Inhaltserzeugung zu einer kritischen Anforderung. Allerdings bleibt die Anpassung von Sicherheits- und Konzeptentfernungsmethoden an dieses neue Generierungsframework eine offene Herausforderung. Insbesondere bauen bisherige Methoden stark auf iterativer Trajektorienlenkung über mehrere Entrauschungsschritte oder auf CLIP-zentrierter Prompt-Embedding-Manipulation auf. Diese Designannahmen stellen grundlegende Engpässe für die Sicherheit in Flow-Matching-basierter T2I-Generierung dar, da begrenzte Abtastschritte iterative Korrekturen einschränken und moderne kontextbewusste Text-Encoder die Wirksamkeit von Eingriffen auf Embedding-Ebene verringern. In diesem Papier schlagen wir VESFlow vor, eine trainingsfreie Sicherheitsmethode, die auf Flow-Matching mit extrem wenigen Abtastschritten zugeschnitten ist. Unter Ausnutzung der Tatsache, dass Flow-Matching-Modelle die marginale Geschwindigkeit lernen, bearbeiten wir das Geschwindigkeitsfeld direkt über ein sicherheitsbedingtes Posterior. VESFlow lenkt die Trajektorie in Richtung sicherer Ausgaben, während der konditionierende Prompt unverändert bleibt. Basierend auf der Beobachtung, dass VESFlow die Ausgaben unter benignen Prompts unverändert lässt, führen wir zudem eine risikobasierte Filterung ein, die die Geschwindigkeitsbearbeitung umgeht, um den Rechenaufwand zu reduzieren und gleichzeitig die Erzeugung benigner Prompts zu bewahren. Auf dieser Filterung aufbauend schlagen wir VESFlow+ vor, eine stärkere Variante von VESFlow, die die Geschwindigkeit nicht nur in die sichere Richtung bearbeitet, sondern sie auch von der unsicheren Richtung wegdrängt. Experimentelle Ergebnisse zeigen, dass VESFlow+ das Zielkonzept entfernt und die Angriffserfolgsrate von NudeNet auf 6,3% bei Ring-A-Bell und 6,8% bei MMA-Diffusion im 4-Schritt-MeanFlow-Modell reduziert, während die Wiedergabetreue bei benignen Prompts erhalten bleibt.

English

Flow matching has recently emerged as a strong paradigm for state-of-the-art text-to-image (T2I) generation, enabling high-quality generation with a small number of sampling steps. As these models are increasingly integrated into real-world applications, ensuring safe and non-sensitive content generation has become a critical requirement. However, adapting safety and concept removal methods to this new generation framework remains an open challenge. Specifically, prior methods largely rely on iterative trajectory steering across a number of denoising steps or on CLIP-centric prompt embedding manipulation. These design assumptions pose fundamental bottlenecks for safety in flow matching-based T2I generation, where limited sampling steps constrain iterative correction and modern context-aware text encoders diminish the effectiveness of embedding-level interventions. In this paper, we propose VESFlow, a training-free safety method tailored to flow matching with extremely few sampling steps. Leveraging the fact that flow matching models learn the marginal velocity, we directly edit the velocity field via a safe-conditional posterior. VESFlow steers the trajectory toward safe outputs while leaving the conditioning prompt unchanged. Building on the observation that VESFlow leaves outputs unchanged under benign prompts, we further introduce a risk score-based filtering that bypasses velocity editing to reduce computational cost while preserving benign prompt generation. Based on this filtering, we propose VESFlow+, a stronger variant of VESFlow that not only edits the velocity toward the safe direction, but also pushes it away from the unsafe direction. Experimental results show that VESFlow+ removes the target concept, reducing the attack success rate by NudeNet to 6.3% on Ring-A-Bell and 6.8% on MMA-Diffusion on the 4-step MeanFlow model, while preserving fidelity on benign prompts.