SANA 1.5: Escalado eficiente del cálculo en tiempo de entrenamiento y tiempo de inferencia en el Transformador de Difusión Lineal.
SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer
January 30, 2025
Autores: Enze Xie, Junsong Chen, Yuyang Zhao, Jincheng Yu, Ligeng Zhu, Yujun Lin, Zhekai Zhang, Muyang Li, Junyu Chen, Han Cai, Bingchen Liu, Daquan Zhou, Song Han
cs.AI
Resumen
Este documento presenta SANA-1.5, un Transformador de Difusión lineal para una escalabilidad eficiente en la generación de texto a imagen. Basándose en SANA-1.0, introducimos tres innovaciones clave: (1) Escalado Eficiente del Entrenamiento: Un paradigma de crecimiento en profundidad que permite la escalabilidad de 1.6B a 4.8B parámetros con recursos computacionales significativamente reducidos, combinado con un optimizador eficiente de 8 bits. (2) Poda de Profundidad del Modelo: Una técnica de análisis de importancia de bloques para una compresión eficiente del modelo a tamaños arbitrarios con una pérdida mínima de calidad. (3) Escalado en Tiempo de Inferencia: Una estrategia de muestreo repetido que intercambia cálculos por capacidad del modelo, permitiendo que modelos más pequeños igualen la calidad de modelos más grandes en el momento de la inferencia. A través de estas estrategias, SANA-1.5 logra una puntuación de alineación de texto-imagen de 0.72 en GenEval, que puede mejorarse aún más a 0.80 mediante el escalado en inferencia, estableciendo un nuevo Estado del Arte en el banco de pruebas de GenEval. Estas innovaciones permiten un escalado eficiente del modelo en diferentes presupuestos computacionales manteniendo una alta calidad, haciendo que la generación de imágenes de alta calidad sea más accesible.
English
This paper presents SANA-1.5, a linear Diffusion Transformer for efficient
scaling in text-to-image generation. Building upon SANA-1.0, we introduce three
key innovations: (1) Efficient Training Scaling: A depth-growth paradigm that
enables scaling from 1.6B to 4.8B parameters with significantly reduced
computational resources, combined with a memory-efficient 8-bit optimizer. (2)
Model Depth Pruning: A block importance analysis technique for efficient model
compression to arbitrary sizes with minimal quality loss. (3) Inference-time
Scaling: A repeated sampling strategy that trades computation for model
capacity, enabling smaller models to match larger model quality at inference
time. Through these strategies, SANA-1.5 achieves a text-image alignment score
of 0.72 on GenEval, which can be further improved to 0.80 through inference
scaling, establishing a new SoTA on GenEval benchmark. These innovations enable
efficient model scaling across different compute budgets while maintaining high
quality, making high-quality image generation more accessible.Summary
AI-Generated Summary