DDT: Trasformatore a Diffusione DisaccoppiataDDT: Decoupled Diffusion Transformer
I transformer di diffusione hanno dimostrato una qualità di generazione notevole, sebbene richiedano iterazioni di addestramento più lunghe e numerosi passaggi di inferenza. In ogni fase di denoising, i transformer di diffusione codificano gli input rumorosi per estrarre la componente semantica a bassa frequenza e poi decodificano la frequenza più alta con moduli identici. Questo schema crea un dilemma di ottimizzazione intrinseco: la codifica della semantica a bassa frequenza richiede la riduzione delle componenti ad alta frequenza, creando una tensione tra la codifica semantica e la decodifica ad alta frequenza. Per risolvere questa sfida, proponiamo un nuovo \color{ddtD}ecoupled \color{ddtD}iffusion \color{ddtT}ransformer~(\color{ddtDDT}), con un design disaccoppiato di un encoder di condizione dedicato per l'estrazione semantica insieme a un decoder di velocità specializzato. I nostri esperimenti rivelano che un encoder più sostanziale produce miglioramenti delle prestazioni all'aumentare delle dimensioni del modello. Per ImageNet 256x256, il nostro DDT-XL/2 raggiunge una nuova prestazione all'avanguardia di {1.31 FID}~(quasi 4 volte più veloce nella convergenza dell'addestramento rispetto ai precedenti transformer di diffusione). Per ImageNet 512x512, il nostro DDT-XL/2 raggiunge un nuovo FID all'avanguardia di 1.28. Inoltre, come utile sottoprodotto, la nostra architettura disaccoppiata migliora la velocità di inferenza consentendo la condivisione della condizione auto-referenziale tra passaggi di denoising adiacenti. Per minimizzare il degrado delle prestazioni, proponiamo un nuovo approccio di programmazione dinamica statistica per identificare le strategie di condivisione ottimali.