Switti: Entwurf von Skalen-Weisen Transformatoren für die Text-zu-Bild-Synthese

papers.abstract

Diese Arbeit stellt Switti vor, einen skalenweisen Transformer für die Generierung von Text-zu-Bild. Ausgehend von bestehenden AR-Modellen für die Vorhersage auf der nächsten Skalenebene untersuchen wir diese zunächst für die T2I-Generierung und schlagen architektonische Modifikationen vor, um ihre Konvergenz und Gesamtleistung zu verbessern. Wir beobachten dann, dass die Self-Attention-Maps unseres vortrainierten skalenweisen AR-Modells eine schwache Abhängigkeit von vorherigen Skalen aufweisen. Basierend auf dieser Erkenntnis schlagen wir ein nicht-AR-Gegenstück vor, das eine {sim}11% schnellere Abtastung und eine geringere Speicherauslastung ermöglicht, während gleichzeitig eine leicht bessere Generierungsqualität erzielt wird. Darüber hinaus zeigen wir, dass eine klassifiziererfreie Führung auf hochauflösenden Skalen oft unnötig ist und die Leistung sogar beeinträchtigen kann. Durch Deaktivierung der Führung auf diesen Skalen erreichen wir eine zusätzliche Beschleunigung der Abtastung um {sim}20% und verbessern die Generierung feingliedriger Details. Umfangreiche Präferenzstudien von Personen und automatisierte Bewertungen zeigen, dass Switti bestehende T2I-AR-Modelle übertrifft und mit modernsten T2I-Diffusionsmodellen konkurriert, während es bis zu 7-mal schneller ist.

English

This work presents Switti, a scale-wise transformer for text-to-image generation. Starting from existing next-scale prediction AR models, we first explore them for T2I generation and propose architectural modifications to improve their convergence and overall performance. We then observe that self-attention maps of our pretrained scale-wise AR model exhibit weak dependence on preceding scales. Based on this insight, we propose a non-AR counterpart facilitating {sim}11% faster sampling and lower memory usage while also achieving slightly better generation quality.Furthermore, we reveal that classifier-free guidance at high-resolution scales is often unnecessary and can even degrade performance. %may be not only unnecessary but potentially detrimental. By disabling guidance at these scales, we achieve an additional sampling acceleration of {sim}20% and improve the generation of fine-grained details. Extensive human preference studies and automated evaluations show that Switti outperforms existing T2I AR models and competes with state-of-the-art T2I diffusion models while being up to 7{times} faster.

Switti: Entwurf von Skalen-Weisen Transformatoren für die Text-zu-Bild-Synthese

Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

papers.abstract

Support