SANA 1.5: Escalado eficiente del cálculo en tiempo de entrenamiento y tiempo de inferencia en el Transformador de Difusión Lineal.

Resumen

Este documento presenta SANA-1.5, un Transformador de Difusión lineal para una escalabilidad eficiente en la generación de texto a imagen. Basándose en SANA-1.0, introducimos tres innovaciones clave: (1) Escalado Eficiente del Entrenamiento: Un paradigma de crecimiento en profundidad que permite la escalabilidad de 1.6B a 4.8B parámetros con recursos computacionales significativamente reducidos, combinado con un optimizador eficiente de 8 bits. (2) Poda de Profundidad del Modelo: Una técnica de análisis de importancia de bloques para una compresión eficiente del modelo a tamaños arbitrarios con una pérdida mínima de calidad. (3) Escalado en Tiempo de Inferencia: Una estrategia de muestreo repetido que intercambia cálculos por capacidad del modelo, permitiendo que modelos más pequeños igualen la calidad de modelos más grandes en el momento de la inferencia. A través de estas estrategias, SANA-1.5 logra una puntuación de alineación de texto-imagen de 0.72 en GenEval, que puede mejorarse aún más a 0.80 mediante el escalado en inferencia, estableciendo un nuevo Estado del Arte en el banco de pruebas de GenEval. Estas innovaciones permiten un escalado eficiente del modelo en diferentes presupuestos computacionales manteniendo una alta calidad, haciendo que la generación de imágenes de alta calidad sea más accesible.

English

This paper presents SANA-1.5, a linear Diffusion Transformer for efficient scaling in text-to-image generation. Building upon SANA-1.0, we introduce three key innovations: (1) Efficient Training Scaling: A depth-growth paradigm that enables scaling from 1.6B to 4.8B parameters with significantly reduced computational resources, combined with a memory-efficient 8-bit optimizer. (2) Model Depth Pruning: A block importance analysis technique for efficient model compression to arbitrary sizes with minimal quality loss. (3) Inference-time Scaling: A repeated sampling strategy that trades computation for model capacity, enabling smaller models to match larger model quality at inference time. Through these strategies, SANA-1.5 achieves a text-image alignment score of 0.72 on GenEval, which can be further improved to 0.80 through inference scaling, establishing a new SoTA on GenEval benchmark. These innovations enable efficient model scaling across different compute budgets while maintaining high quality, making high-quality image generation more accessible.

SANA 1.5: Escalado eficiente del cálculo en tiempo de entrenamiento y tiempo de inferencia en el Transformador de Difusión Lineal.

SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer

Resumen

Support