ChatPaper.aiChatPaper

SANA 1.5 : Mise à l'échelle efficace du calcul du temps d'entraînement et du temps d'inférence dans le transformateur linéaire de diffusion

SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer

January 30, 2025
Auteurs: Enze Xie, Junsong Chen, Yuyang Zhao, Jincheng Yu, Ligeng Zhu, Yujun Lin, Zhekai Zhang, Muyang Li, Junyu Chen, Han Cai, Bingchen Liu, Daquan Zhou, Song Han
cs.AI

Résumé

Cet article présente SANA-1.5, un Transformateur de Diffusion linéaire pour un dimensionnement efficace dans la génération de texte vers image. En s'appuyant sur SANA-1.0, nous introduisons trois innovations clés : (1) Mise à l'échelle de l'Entraînement Efficace : un paradigme de croissance en profondeur qui permet de passer de 1,6 milliard à 4,8 milliards de paramètres avec des ressources computationnelles considérablement réduites, combiné à un optimiseur efficace en mémoire de 8 bits. (2) Élagage de la Profondeur du Modèle : une technique d'analyse de l'importance des blocs pour une compression efficace du modèle à des tailles arbitraires avec une perte de qualité minimale. (3) Mise à l'échelle au Moment de l'Inférence : une stratégie d'échantillonnage répétée qui échange la computation contre la capacité du modèle, permettant aux modèles plus petits d'égaler la qualité des modèles plus grands au moment de l'inférence. Grâce à ces stratégies, SANA-1.5 atteint un score d'alignement texte-image de 0,72 sur GenEval, pouvant être amélioré à 0,80 grâce à la mise à l'échelle de l'inférence, établissant un nouveau SoTA sur le banc d'essai GenEval. Ces innovations permettent un dimensionnement efficace du modèle à travers différents budgets de calcul tout en maintenant une haute qualité, rendant la génération d'images de haute qualité plus accessible.
English
This paper presents SANA-1.5, a linear Diffusion Transformer for efficient scaling in text-to-image generation. Building upon SANA-1.0, we introduce three key innovations: (1) Efficient Training Scaling: A depth-growth paradigm that enables scaling from 1.6B to 4.8B parameters with significantly reduced computational resources, combined with a memory-efficient 8-bit optimizer. (2) Model Depth Pruning: A block importance analysis technique for efficient model compression to arbitrary sizes with minimal quality loss. (3) Inference-time Scaling: A repeated sampling strategy that trades computation for model capacity, enabling smaller models to match larger model quality at inference time. Through these strategies, SANA-1.5 achieves a text-image alignment score of 0.72 on GenEval, which can be further improved to 0.80 through inference scaling, establishing a new SoTA on GenEval benchmark. These innovations enable efficient model scaling across different compute budgets while maintaining high quality, making high-quality image generation more accessible.

Summary

AI-Generated Summary

PDF192February 1, 2025