Dynamische Abstoßung im Kontextraum zur Erzeugung reichhaltiger Diversität in Diffusionstransformern

Zusammenfassung

Moderne Text-to-Image (T2I) Diffusionsmodelle haben eine bemerkenswerte semantische Übereinstimmung erreicht, leiden jedoch oft unter einem erheblichen Mangel an Vielfalt, da sie für eine gegebene Eingabeaufforderung auf einen engen Satz visueller Lösungen konvergieren. Diese Typizitätsverzerrung stellt eine Herausforderung für kreative Anwendungen dar, die eine breite Palette generativer Ergebnisse erfordern. Wir identifizieren einen grundlegenden Zielkonflikt in aktuellen Ansätzen zur Diversifizierung: Die Modifikation von Modelleingaben erfordert eine kostenintensive Optimierung, um Feedback aus dem generativen Pfad zu integrieren. Im Gegensatz dazu neigt das Einwirken auf räumlich festgelegte Zwischen-Latents dazu, die sich formende visuelle Struktur zu stören und führt zu Artefakten. In dieser Arbeit schlagen wir vor, Abstoßung im Kontextraum als neuartigen Rahmen zur Erzielung einer reichen Vielfalt in Diffusion-Transformern anzuwenden. Durch Eingriffe in die multimodalen Aufmerksamkeitskanäle wenden wir eine Abstoßung während des Vorwärtsdurchlaufs des Transformers an und injizieren den Eingriff zwischen Blöcken, in denen die Textkonditionierung mit der entstehenden Bildstruktur angereichert wird. Dies ermöglicht es, die Führungstrajektorie umzulenken, nachdem sie strukturell informiert ist, aber bevor die Komposition festgelegt wird. Unsere Ergebnisse zeigen, dass Abstoßung im Kontextraum eine signifikant größere Vielfalt erzeugt, ohne die visuelle Qualität oder semantische Treue zu opfern. Darüber hinaus ist unsere Methode einzigartig effizient, verursacht nur einen geringen Rechenaufwand und bleibt selbst in modernen "Turbo"- und destillierten Modellen wirksam, in denen traditionelle, auf Trajektorien basierende Interventionen typischerweise versagen.

English

Modern Text-to-Image (T2I) diffusion models have achieved remarkable semantic alignment, yet they often suffer from a significant lack of variety, converging on a narrow set of visual solutions for any given prompt. This typicality bias presents a challenge for creative applications that require a wide range of generative outcomes. We identify a fundamental trade-off in current approaches to diversity: modifying model inputs requires costly optimization to incorporate feedback from the generative path. In contrast, acting on spatially-committed intermediate latents tends to disrupt the forming visual structure, leading to artifacts. In this work, we propose to apply repulsion in the Contextual Space as a novel framework for achieving rich diversity in Diffusion Transformers. By intervening in the multimodal attention channels, we apply on-the-fly repulsion during the transformer's forward pass, injecting the intervention between blocks where text conditioning is enriched with emergent image structure. This allows for redirecting the guidance trajectory after it is structurally informed but before the composition is fixed. Our results demonstrate that repulsion in the Contextual Space produces significantly richer diversity without sacrificing visual fidelity or semantic adherence. Furthermore, our method is uniquely efficient, imposing a small computational overhead while remaining effective even in modern "Turbo" and distilled models where traditional trajectory-based interventions typically fail.

Dynamische Abstoßung im Kontextraum zur Erzeugung reichhaltiger Diversität in Diffusionstransformern

On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers

Zusammenfassung

Support