ChatPaper.aiChatPaper

스위티: 텍스트에서 이미지로의 합성을 위한 스케일별 트랜스포머 설계

Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis

December 2, 2024
저자: Anton Voronov, Denis Kuznedelev, Mikhail Khoroshikh, Valentin Khrulkov, Dmitry Baranchuk
cs.AI

초록

이 연구는 텍스트에서 이미지를 생성하기 위한 스케일별 트랜스포머인 Switti를 제안합니다. 기존의 다음 스케일 예측 AR 모델을 시작으로, 우리는 먼저 이러한 모델들을 T2I 생성을 위해 탐구하고 수렴 및 전반적인 성능을 향상시키기 위한 구조적 수정을 제안합니다. 그런 다음, 사전 학습된 스케일별 AR 모델의 self-attention 맵이 이전 스케일에 대해 약한 의존성을 나타내는 것을 관찰합니다. 이 통찰력을 바탕으로, 우리는 약간 더 나은 생성 품질을 달성하면서도 {sim}11% 빠른 샘플링 및 낮은 메모리 사용량을 가능케 하는 비-AR 대응물을 제안합니다. 더 나아가, 고해상도 스케일에서의 분류기 없는 가이드가 종종 불필요하며 심지어 성능을 저하시킬 수 있다는 것을 밝힙니다. 이러한 스케일에서의 가이드를 비활성화함으로써, {sim}20%의 추가 샘플링 가속화를 달성하고 세밀한 세부사항의 생성을 개선합니다. 광범위한 인간 선호도 연구 및 자동화된 평가 결과, Switti가 기존의 T2I AR 모델을 능가하며 최첨단 T2I 확산 모델과 경쟁하면서 최대 7배 빠르다는 것을 보여줍니다.
English
This work presents Switti, a scale-wise transformer for text-to-image generation. Starting from existing next-scale prediction AR models, we first explore them for T2I generation and propose architectural modifications to improve their convergence and overall performance. We then observe that self-attention maps of our pretrained scale-wise AR model exhibit weak dependence on preceding scales. Based on this insight, we propose a non-AR counterpart facilitating {sim}11% faster sampling and lower memory usage while also achieving slightly better generation quality.Furthermore, we reveal that classifier-free guidance at high-resolution scales is often unnecessary and can even degrade performance. %may be not only unnecessary but potentially detrimental. By disabling guidance at these scales, we achieve an additional sampling acceleration of {sim}20% and improve the generation of fine-grained details. Extensive human preference studies and automated evaluations show that Switti outperforms existing T2I AR models and competes with state-of-the-art T2I diffusion models while being up to 7{times} faster.
PDF353December 3, 2024