ChatPaper.aiChatPaper

Switti: テキストから画像への合成のためのスケール別トランスフォーマーの設計

Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

December 2, 2024
著者: Anton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk
cs.AI

要旨

本研究では、テキストから画像を生成するためのスケール別トランスフォーマーであるSwittiを提案します。既存の次元スケール予測ARモデルから出発し、まずそれらをT2I生成に適用し、収束と全体的な性能を向上させるためのアーキテクチャの修正を提案します。次に、事前学習されたスケール別ARモデルの自己注意マップが、先行スケールに対する弱い依存性を示すことを観察します。この洞察に基づき、先行スケールに依存しない非AR対応策を提案し、{sim}11%高速なサンプリングと低メモリ使用量を実現しつつ、わずかに優れた生成品質を達成します。さらに、高解像度スケールでの分類器不要のガイダンスはしばしば不要であり、場合によってはパフォーマンスを低下させる可能性があることを明らかにします。これらのスケールでのガイダンスを無効にすることで、{sim}20%の追加サンプリング加速が実現され、細かいディテールの生成が改善されます。広範な人間の選好調査と自動評価により、Swittiが既存のT2I ARモデルを上回り、最新のT2I拡散モデルと競合しながらも最大7倍高速であることが示されました。
English
This work presents Switti, a scale-wise transformer for text-to-image generation. Starting from existing next-scale prediction AR models, we first explore them for T2I generation and propose architectural modifications to improve their convergence and overall performance. We then observe that self-attention maps of our pretrained scale-wise AR model exhibit weak dependence on preceding scales. Based on this insight, we propose a non-AR counterpart facilitating {sim}11% faster sampling and lower memory usage while also achieving slightly better generation quality.Furthermore, we reveal that classifier-free guidance at high-resolution scales is often unnecessary and can even degrade performance. %may be not only unnecessary but potentially detrimental. By disabling guidance at these scales, we achieve an additional sampling acceleration of {sim}20% and improve the generation of fine-grained details. Extensive human preference studies and automated evaluations show that Switti outperforms existing T2I AR models and competes with state-of-the-art T2I diffusion models while being up to 7{times} faster.
PDF353December 3, 2024