Dynamische Afstoting in de Contextuele Ruimte voor Rijke Diversiteit in Diffusie-Transformers

Samenvatting

Moderne tekst-naar-beeld (T2I) diffusiemodellen hebben een opmerkelijke semantische uitlijning bereikt, maar lijden vaak aan een aanzienlijk gebrek aan variatie, waarbij ze convergeren naar een beperkte set van visuele oplossingen voor een gegeven prompt. Deze typiciteitsbias vormt een uitdaging voor creatieve toepassingen die een breed scala aan generatieve uitkomsten vereisen. Wij identificeren een fundamentele wisselwerking in huidige benaderingen voor diversiteit: het aanpassen van modelinputs vereist kostbare optimalisatie om feedback van het generatieve pad te incorporeren. Daarentegen verstoort ingrijpen op ruimtelijk vastgelegde tussenliggende latenties de zich vormende visuele structuur, wat leidt tot artefacten. In dit werk stellen wij voor om afstoting toe te passen in de Contextuele Ruimte als een nieuw kader voor het bereiken van rijke diversiteit in Diffusion Transformers. Door in te grijpen in de multimodale aandachtskanalen, passen we dynamische afstoting toe tijdens de forward pass van de transformer, waarbij we de interventie injecteren tussen blokken waar tekstconditionering wordt verrijkt met emergente beeldstructuur. Dit maakt het mogelijk om de begeleidingstrajectorie te heroriënteren nadat deze structureel is geïnformeerd, maar voordat de compositie vaststaat. Onze resultaten tonen aan dat afstoting in de Contextuele Ruimte een aanzienlijk rijkere diversiteit oplevert zonder in te leveren op visuele kwaliteit of semantische trouw. Bovendien is onze methode uniek efficiënt, voegt ze een kleine computationele overhead toe en blijft ze effectief, zelfs in moderne "Turbo"- en gedistilleerde modellen waar traditionele op trajectorie gebaseerde interventies doorgaans falen.

English

Modern Text-to-Image (T2I) diffusion models have achieved remarkable semantic alignment, yet they often suffer from a significant lack of variety, converging on a narrow set of visual solutions for any given prompt. This typicality bias presents a challenge for creative applications that require a wide range of generative outcomes. We identify a fundamental trade-off in current approaches to diversity: modifying model inputs requires costly optimization to incorporate feedback from the generative path. In contrast, acting on spatially-committed intermediate latents tends to disrupt the forming visual structure, leading to artifacts. In this work, we propose to apply repulsion in the Contextual Space as a novel framework for achieving rich diversity in Diffusion Transformers. By intervening in the multimodal attention channels, we apply on-the-fly repulsion during the transformer's forward pass, injecting the intervention between blocks where text conditioning is enriched with emergent image structure. This allows for redirecting the guidance trajectory after it is structurally informed but before the composition is fixed. Our results demonstrate that repulsion in the Contextual Space produces significantly richer diversity without sacrificing visual fidelity or semantic adherence. Furthermore, our method is uniquely efficient, imposing a small computational overhead while remaining effective even in modern "Turbo" and distilled models where traditional trajectory-based interventions typically fail.

Dynamische Afstoting in de Contextuele Ruimte voor Rijke Diversiteit in Diffusie-Transformers

On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers

Samenvatting

Support