ChatPaper.aiChatPaper

Switti: Diseñando Transformadores a Escala para la Síntesis de Texto a Imagen

Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

December 2, 2024
Autores: Anton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk
cs.AI

Resumen

Este trabajo presenta Switti, un transformador a escala para la generación de texto a imagen. Partiendo de modelos AR existentes de predicción a la siguiente escala, primero los exploramos para la generación de texto a imagen y proponemos modificaciones arquitectónicas para mejorar su convergencia y rendimiento general. Luego observamos que los mapas de autoatención de nuestro modelo AR a escala preentrenado muestran una débil dependencia de las escalas precedentes. Basándonos en esta percepción, proponemos un contraparte no-AR que facilita una generación de muestras aproximadamente un 11% más rápida y un menor uso de memoria, al tiempo que logra una calidad de generación ligeramente superior. Además, revelamos que la orientación sin clasificador en escalas de alta resolución a menudo es innecesaria e incluso puede degradar el rendimiento. Al desactivar la orientación en estas escalas, logramos una aceleración adicional de la generación de muestras de aproximadamente un 20% y mejoramos la generación de detalles de alta calidad. Estudios extensos de preferencia humana y evaluaciones automatizadas muestran que Switti supera a los modelos AR existentes de texto a imagen y compite con los modelos de difusión de texto a imagen de última generación, siendo hasta 7 veces más rápido.
English
This work presents Switti, a scale-wise transformer for text-to-image generation. Starting from existing next-scale prediction AR models, we first explore them for T2I generation and propose architectural modifications to improve their convergence and overall performance. We then observe that self-attention maps of our pretrained scale-wise AR model exhibit weak dependence on preceding scales. Based on this insight, we propose a non-AR counterpart facilitating {sim}11% faster sampling and lower memory usage while also achieving slightly better generation quality.Furthermore, we reveal that classifier-free guidance at high-resolution scales is often unnecessary and can even degrade performance. %may be not only unnecessary but potentially detrimental. By disabling guidance at these scales, we achieve an additional sampling acceleration of {sim}20% and improve the generation of fine-grained details. Extensive human preference studies and automated evaluations show that Switti outperforms existing T2I AR models and competes with state-of-the-art T2I diffusion models while being up to 7{times} faster.
PDF353December 3, 2024