ChatPaper.aiChatPaper

Switti: Het ontwerpen van Schaal-Wijze Transformers voor Tekst-naar-Afbeelding Synthese

Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

December 2, 2024
Auteurs: Anton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk
cs.AI

Samenvatting

Dit werk presenteert Switti, een schaalwijze transformer voor tekst-naar-afbeelding generatie. Vertrekkend van bestaande AR-modellen voor voorspelling op volgende schaal, verkennen we deze eerst voor T2I generatie en stellen we architectonische aanpassingen voor om hun convergentie en algehele prestaties te verbeteren. Vervolgens observeren we dat zelfaandachtskaarten van ons vooraf getrainde schaalwijze AR-model zwak afhankelijk zijn van voorafgaande schalen. Op basis van dit inzicht stellen we een niet-AR-tegenhanger voor die ongeveer 11% sneller samplen en minder geheugen gebruiken, terwijl ook iets betere generatiekwaliteit wordt bereikt. Bovendien onthullen we dat het gidsen zonder classifier op hoge-resolutieschalen vaak onnodig is en zelfs prestaties kan verminderen. Door het gidsen op deze schalen uit te schakelen, bereiken we een extra versnelling van ongeveer 20% bij het samplen en verbeteren we de generatie van fijngestructureerde details. Uitgebreide menselijke voorkeursstudies en geautomatiseerde evaluaties tonen aan dat Switti beter presteert dan bestaande T2I AR-modellen en concurreert met toonaangevende T2I-diffusiemodellen, terwijl het tot 7 keer sneller is.
English
This work presents Switti, a scale-wise transformer for text-to-image generation. Starting from existing next-scale prediction AR models, we first explore them for T2I generation and propose architectural modifications to improve their convergence and overall performance. We then observe that self-attention maps of our pretrained scale-wise AR model exhibit weak dependence on preceding scales. Based on this insight, we propose a non-AR counterpart facilitating {sim}11% faster sampling and lower memory usage while also achieving slightly better generation quality.Furthermore, we reveal that classifier-free guidance at high-resolution scales is often unnecessary and can even degrade performance. %may be not only unnecessary but potentially detrimental. By disabling guidance at these scales, we achieve an additional sampling acceleration of {sim}20% and improve the generation of fine-grained details. Extensive human preference studies and automated evaluations show that Switti outperforms existing T2I AR models and competes with state-of-the-art T2I diffusion models while being up to 7{times} faster.
PDF343February 7, 2026