SANA 1.5 : Mise à l'échelle efficace du calcul du temps d'entraînement et du temps d'inférence dans le transformateur linéaire de diffusion
SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer
January 30, 2025
Auteurs: Enze Xie, Junsong Chen, Yuyang Zhao, Jincheng Yu, Ligeng Zhu, Yujun Lin, Zhekai Zhang, Muyang Li, Junyu Chen, Han Cai, Bingchen Liu, Daquan Zhou, Song Han
cs.AI
Résumé
Cet article présente SANA-1.5, un Transformateur de Diffusion linéaire pour un dimensionnement efficace dans la génération de texte vers image. En s'appuyant sur SANA-1.0, nous introduisons trois innovations clés : (1) Mise à l'échelle de l'Entraînement Efficace : un paradigme de croissance en profondeur qui permet de passer de 1,6 milliard à 4,8 milliards de paramètres avec des ressources computationnelles considérablement réduites, combiné à un optimiseur efficace en mémoire de 8 bits. (2) Élagage de la Profondeur du Modèle : une technique d'analyse de l'importance des blocs pour une compression efficace du modèle à des tailles arbitraires avec une perte de qualité minimale. (3) Mise à l'échelle au Moment de l'Inférence : une stratégie d'échantillonnage répétée qui échange la computation contre la capacité du modèle, permettant aux modèles plus petits d'égaler la qualité des modèles plus grands au moment de l'inférence. Grâce à ces stratégies, SANA-1.5 atteint un score d'alignement texte-image de 0,72 sur GenEval, pouvant être amélioré à 0,80 grâce à la mise à l'échelle de l'inférence, établissant un nouveau SoTA sur le banc d'essai GenEval. Ces innovations permettent un dimensionnement efficace du modèle à travers différents budgets de calcul tout en maintenant une haute qualité, rendant la génération d'images de haute qualité plus accessible.
English
This paper presents SANA-1.5, a linear Diffusion Transformer for efficient
scaling in text-to-image generation. Building upon SANA-1.0, we introduce three
key innovations: (1) Efficient Training Scaling: A depth-growth paradigm that
enables scaling from 1.6B to 4.8B parameters with significantly reduced
computational resources, combined with a memory-efficient 8-bit optimizer. (2)
Model Depth Pruning: A block importance analysis technique for efficient model
compression to arbitrary sizes with minimal quality loss. (3) Inference-time
Scaling: A repeated sampling strategy that trades computation for model
capacity, enabling smaller models to match larger model quality at inference
time. Through these strategies, SANA-1.5 achieves a text-image alignment score
of 0.72 on GenEval, which can be further improved to 0.80 through inference
scaling, establishing a new SoTA on GenEval benchmark. These innovations enable
efficient model scaling across different compute budgets while maintaining high
quality, making high-quality image generation more accessible.Summary
AI-Generated Summary