Repulsione in Tempo Reale nello Spazio Contestuale per un'Elevata Diversità nei Trasformatori di Diffusione

Abstract

I moderni modelli di diffusione Text-to-Image (T2I) hanno ottenuto un allineamento semantico notevole, ma spesso soffrono di una significativa mancanza di varietà, convergendo su un insieme ristretto di soluzioni visive per ogni prompt dato. Questo bias di tipicità rappresenta una sfida per le applicazioni creative che richiedono un'ampia gamma di risultati generativi. Identifichiamo un compromesso fondamentale negli approcci attuali alla diversità: modificare gli input del modello richiede un'ottimizzazione costosa per incorporare il feedback dal percorso generativo. Al contrario, agire sui latenti intermedi spazialmente impegnati tende a perturbare la struttura visiva in formazione, portando ad artefatti. In questo lavoro, proponiamo di applicare la repulsione nello Spazio Contestuale come una nuova struttura per ottenere una ricca diversità nei Diffusion Transformer. Intervenendo sui canali di attenzione multimodale, applichiamo una repulsione in tempo reale durante il passaggio in avanti del transformer, iniettando l'intervento tra i blocchi dove il condizionamento testuale è arricchito con la struttura d'immagine emergente. Ciò consente di reindirizzare la traiettoria di guida dopo che è stata informata strutturalmente ma prima che la composizione sia fissata. I nostri risultati dimostrano che la repulsione nello Spazio Contestuale produce una diversità significativamente più ricca senza sacrificare la fedeltà visiva o l'aderenza semantica. Inoltre, il nostro metodo è singularmente efficiente, imponendo un piccolo sovraccarico computazionale rimanendo efficace anche nei moderni modelli "Turbo" e distillati, dove gli interventi tradizionali basati sulla traiettoria tipicamente falliscono.

English

Modern Text-to-Image (T2I) diffusion models have achieved remarkable semantic alignment, yet they often suffer from a significant lack of variety, converging on a narrow set of visual solutions for any given prompt. This typicality bias presents a challenge for creative applications that require a wide range of generative outcomes. We identify a fundamental trade-off in current approaches to diversity: modifying model inputs requires costly optimization to incorporate feedback from the generative path. In contrast, acting on spatially-committed intermediate latents tends to disrupt the forming visual structure, leading to artifacts. In this work, we propose to apply repulsion in the Contextual Space as a novel framework for achieving rich diversity in Diffusion Transformers. By intervening in the multimodal attention channels, we apply on-the-fly repulsion during the transformer's forward pass, injecting the intervention between blocks where text conditioning is enriched with emergent image structure. This allows for redirecting the guidance trajectory after it is structurally informed but before the composition is fixed. Our results demonstrate that repulsion in the Contextual Space produces significantly richer diversity without sacrificing visual fidelity or semantic adherence. Furthermore, our method is uniquely efficient, imposing a small computational overhead while remaining effective even in modern "Turbo" and distilled models where traditional trajectory-based interventions typically fail.

Repulsione in Tempo Reale nello Spazio Contestuale per un'Elevata Diversità nei Trasformatori di Diffusione

On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers

Abstract

Support