ChatPaper.aiChatPaper

Switti : Conception de transformateurs à différentes échelles pour la synthèse texte-image

Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

December 2, 2024
papers.authors: Anton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk
cs.AI

papers.abstract

Ce travail présente Switti, un transformateur à échelle pour la génération de texte vers image. En partant des modèles AR existants de prédiction à l'échelle suivante, nous les explorons d'abord pour la génération de T2I et proposons des modifications architecturales pour améliorer leur convergence et leurs performances globales. Nous observons ensuite que les cartes d'auto-attention de notre modèle AR à échelle pré-entraîné montrent une faible dépendance par rapport aux échelles précédentes. Sur la base de cette observation, nous proposons un homologue non-AR facilitant un échantillonnage environ 11% plus rapide et une utilisation de mémoire plus faible tout en obtenant une qualité de génération légèrement meilleure. De plus, nous révélons que l'orientation sans classificateur aux échelles de haute résolution est souvent inutile et peut même dégrader les performances. En désactivant l'orientation à ces échelles, nous obtenons une accélération supplémentaire de l'échantillonnage d'environ 20% et améliorons la génération de détails fins. Des études approfondies de préférence humaine et des évaluations automatisées montrent que Switti surpasse les modèles AR T2I existants et rivalise avec les modèles de diffusion T2I de pointe tout en étant jusqu'à 7 fois plus rapide.
English
This work presents Switti, a scale-wise transformer for text-to-image generation. Starting from existing next-scale prediction AR models, we first explore them for T2I generation and propose architectural modifications to improve their convergence and overall performance. We then observe that self-attention maps of our pretrained scale-wise AR model exhibit weak dependence on preceding scales. Based on this insight, we propose a non-AR counterpart facilitating {sim}11% faster sampling and lower memory usage while also achieving slightly better generation quality.Furthermore, we reveal that classifier-free guidance at high-resolution scales is often unnecessary and can even degrade performance. %may be not only unnecessary but potentially detrimental. By disabling guidance at these scales, we achieve an additional sampling acceleration of {sim}20% and improve the generation of fine-grained details. Extensive human preference studies and automated evaluations show that Switti outperforms existing T2I AR models and competes with state-of-the-art T2I diffusion models while being up to 7{times} faster.
PDF353December 3, 2024