Switti: Entwurf von Skalen-Weisen Transformatoren für die Text-zu-Bild-Synthese
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis
December 2, 2024
papers.authors: Anton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk
cs.AI
papers.abstract
Diese Arbeit stellt Switti vor, einen skalenweisen Transformer für die Generierung von Text-zu-Bild. Ausgehend von bestehenden AR-Modellen für die Vorhersage auf der nächsten Skalenebene untersuchen wir diese zunächst für die T2I-Generierung und schlagen architektonische Modifikationen vor, um ihre Konvergenz und Gesamtleistung zu verbessern. Wir beobachten dann, dass die Self-Attention-Maps unseres vortrainierten skalenweisen AR-Modells eine schwache Abhängigkeit von vorherigen Skalen aufweisen. Basierend auf dieser Erkenntnis schlagen wir ein nicht-AR-Gegenstück vor, das eine {sim}11% schnellere Abtastung und eine geringere Speicherauslastung ermöglicht, während gleichzeitig eine leicht bessere Generierungsqualität erzielt wird. Darüber hinaus zeigen wir, dass eine klassifiziererfreie Führung auf hochauflösenden Skalen oft unnötig ist und die Leistung sogar beeinträchtigen kann. Durch Deaktivierung der Führung auf diesen Skalen erreichen wir eine zusätzliche Beschleunigung der Abtastung um {sim}20% und verbessern die Generierung feingliedriger Details. Umfangreiche Präferenzstudien von Personen und automatisierte Bewertungen zeigen, dass Switti bestehende T2I-AR-Modelle übertrifft und mit modernsten T2I-Diffusionsmodellen konkurriert, während es bis zu 7-mal schneller ist.
English
This work presents Switti, a scale-wise transformer for text-to-image
generation. Starting from existing next-scale prediction AR models, we first
explore them for T2I generation and propose architectural modifications to
improve their convergence and overall performance. We then observe that
self-attention maps of our pretrained scale-wise AR model exhibit weak
dependence on preceding scales. Based on this insight, we propose a non-AR
counterpart facilitating {sim}11% faster sampling and lower memory usage
while also achieving slightly better generation quality.Furthermore, we reveal
that classifier-free guidance at high-resolution scales is often unnecessary
and can even degrade performance. %may be not only unnecessary but potentially
detrimental. By disabling guidance at these scales, we achieve an additional
sampling acceleration of {sim}20% and improve the generation of
fine-grained details. Extensive human preference studies and automated
evaluations show that Switti outperforms existing T2I AR models and competes
with state-of-the-art T2I diffusion models while being up to 7{times}
faster.