ChatPaper.aiChatPaper

Switti: Projetando Transformadores Escala-Sábia para Síntese de Texto para Imagem

Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

December 2, 2024
Autores: Anton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk
cs.AI

Resumo

Este trabalho apresenta o Switti, um transformador em escala para geração de texto para imagem. Partindo de modelos AR existentes de previsão em próxima escala, exploramos inicialmente esses modelos para geração de T2I e propomos modificações arquiteturais para melhorar sua convergência e desempenho geral. Observamos então que os mapas de autoatenção de nosso modelo AR em escala pré-treinado exibem uma fraca dependência em relação às escalas anteriores. Com base nessa percepção, propomos um contraparte não-AR que facilita uma amostragem aproximadamente 11% mais rápida e menor uso de memória, ao mesmo tempo em que alcança uma qualidade de geração ligeiramente superior. Além disso, revelamos que a orientação sem classificador em escalas de alta resolução é frequentemente desnecessária e pode até mesmo degradar o desempenho. Ao desativar a orientação nessas escalas, conseguimos uma aceleração adicional na amostragem de cerca de 20% e melhoramos a geração de detalhes refinados. Estudos extensivos de preferência humana e avaliações automatizadas mostram que o Switti supera os modelos AR T2I existentes e compete com os modelos de difusão T2I de última geração, sendo até 7 vezes mais rápido.
English
This work presents Switti, a scale-wise transformer for text-to-image generation. Starting from existing next-scale prediction AR models, we first explore them for T2I generation and propose architectural modifications to improve their convergence and overall performance. We then observe that self-attention maps of our pretrained scale-wise AR model exhibit weak dependence on preceding scales. Based on this insight, we propose a non-AR counterpart facilitating {sim}11% faster sampling and lower memory usage while also achieving slightly better generation quality.Furthermore, we reveal that classifier-free guidance at high-resolution scales is often unnecessary and can even degrade performance. %may be not only unnecessary but potentially detrimental. By disabling guidance at these scales, we achieve an additional sampling acceleration of {sim}20% and improve the generation of fine-grained details. Extensive human preference studies and automated evaluations show that Switti outperforms existing T2I AR models and competes with state-of-the-art T2I diffusion models while being up to 7{times} faster.
PDF353December 3, 2024