Switti: Progettazione di Trasformatori su Diverse Scale per la Sintesi Testo-Immagine
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis
December 2, 2024
Autori: Anton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk
cs.AI
Abstract
Questo lavoro presenta Switti, un transformer scala-wise per la generazione di testo-immagine. Partendo dai modelli AR esistenti per la previsione su scala successiva, esploriamo innanzitutto il loro utilizzo per la generazione T2I e proponiamo modifiche architetturali per migliorarne la convergenza e le prestazioni complessive. Successivamente, osserviamo che le mappe di auto-attenzione del nostro modello AR scala-wise preaddestrato mostrano una debole dipendenza dalle scale precedenti. Basandoci su questa intuizione, proponiamo un controparte non-AR che facilita un campionamento più veloce del 11% e un utilizzo inferiore della memoria, ottenendo anche una leggera miglioramento della qualità della generazione. Inoltre, riveliamo che l'orientamento senza classificatore alle scale ad alta risoluzione è spesso superfluo e può addirittura degradare le prestazioni. Disabilitando l'orientamento a queste scale, otteniamo un'ulteriore accelerazione del campionamento del 20% e miglioriamo la generazione di dettagli fini. Studi estesi sulle preferenze umane e valutazioni automatizzate mostrano che Switti supera i modelli AR T2I esistenti e si confronta con i modelli di diffusione T2I all'avanguardia, essendo fino a 7 volte più veloce.
English
This work presents Switti, a scale-wise transformer for text-to-image
generation. Starting from existing next-scale prediction AR models, we first
explore them for T2I generation and propose architectural modifications to
improve their convergence and overall performance. We then observe that
self-attention maps of our pretrained scale-wise AR model exhibit weak
dependence on preceding scales. Based on this insight, we propose a non-AR
counterpart facilitating {sim}11% faster sampling and lower memory usage
while also achieving slightly better generation quality.Furthermore, we reveal
that classifier-free guidance at high-resolution scales is often unnecessary
and can even degrade performance. %may be not only unnecessary but potentially
detrimental. By disabling guidance at these scales, we achieve an additional
sampling acceleration of {sim}20% and improve the generation of
fine-grained details. Extensive human preference studies and automated
evaluations show that Switti outperforms existing T2I AR models and competes
with state-of-the-art T2I diffusion models while being up to 7{times}
faster.