Switti: Разработка трансформеров по шкалам для синтеза текста в изображение
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis
December 2, 2024
Авторы: Anton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk
cs.AI
Аннотация
Данная работа представляет Switti, масштабно-ориентированный трансформер для генерации текста в изображение. Начиная с существующих моделей AR для предсказания следующего масштаба, мы сначала исследуем их для генерации T2I и предлагаем архитектурные модификации для улучшения их сходимости и общей производительности. Затем мы замечаем, что карты самовнимания нашей предварительно обученной масштабно-ориентированной модели AR проявляют слабую зависимость от предыдущих масштабов. Исходя из этого наблюдения, мы предлагаем немасштабный аналог, обеспечивающий приблизительно на 11% более быструю выборку и более низкое использование памяти, сохраняя при этом немного лучшее качество генерации. Кроме того, мы выявляем, что отсутствие руководства классификатором на масштабах высокого разрешения часто не нужно и даже может ухудшить производительность. Отключив руководство на этих масштабах, мы добиваемся дополнительного ускорения выборки примерно на 20% и улучшаем генерацию мелких деталей. Обширные исследования предпочтений людей и автоматизированные оценки показывают, что Switti превосходит существующие модели T2I AR и конкурирует с передовыми моделями диффузии T2I, при этом работая в 7 раз быстрее.
English
This work presents Switti, a scale-wise transformer for text-to-image
generation. Starting from existing next-scale prediction AR models, we first
explore them for T2I generation and propose architectural modifications to
improve their convergence and overall performance. We then observe that
self-attention maps of our pretrained scale-wise AR model exhibit weak
dependence on preceding scales. Based on this insight, we propose a non-AR
counterpart facilitating {sim}11% faster sampling and lower memory usage
while also achieving slightly better generation quality.Furthermore, we reveal
that classifier-free guidance at high-resolution scales is often unnecessary
and can even degrade performance. %may be not only unnecessary but potentially
detrimental. By disabling guidance at these scales, we achieve an additional
sampling acceleration of {sim}20% and improve the generation of
fine-grained details. Extensive human preference studies and automated
evaluations show that Switti outperforms existing T2I AR models and competes
with state-of-the-art T2I diffusion models while being up to 7{times}
faster.