SANA 1.5: Эффективное масштабирование вычислений времени обучения и времени вывода в линейном диффузионном трансформере
SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer
January 30, 2025
Авторы: Enze Xie, Junsong Chen, Yuyang Zhao, Jincheng Yu, Ligeng Zhu, Yujun Lin, Zhekai Zhang, Muyang Li, Junyu Chen, Han Cai, Bingchen Liu, Daquan Zhou, Song Han
cs.AI
Аннотация
Данный доклад представляет SANA-1.5, линейный Диффузионный Трансформер для эффективного масштабирования в генерации текста к изображению. Основываясь на SANA-1.0, мы представляем три ключевых инновации: (1) Эффективное масштабирование обучения: парадигма увеличения глубины, позволяющая масштабировать от 1.6B до 4.8B параметров с значительным сокращением вычислительных ресурсов, в сочетании с эффективным по памяти оптимизатором 8 бит. (2) Обрезка глубины модели: техника анализа важности блока для эффективного сжатия модели до произвольных размеров с минимальной потерей качества. (3) Масштабирование на этапе вывода: стратегия повторного выбора, которая обменивает вычисления на емкость модели, позволяя более маленьким моделям соответствовать качеству более крупных моделей на этапе вывода. Благодаря этим стратегиям, SANA-1.5 достигает оценки согласования текста и изображения 0.72 на GenEval, которая может быть дополнительно улучшена до 0.80 через масштабирование на этапе вывода, устанавливая новый SoTA на бенчмарке GenEval. Эти инновации обеспечивают эффективное масштабирование модели в различных бюджетах вычислений, сохраняя высокое качество и делая генерацию изображений высокого качества более доступной.
English
This paper presents SANA-1.5, a linear Diffusion Transformer for efficient
scaling in text-to-image generation. Building upon SANA-1.0, we introduce three
key innovations: (1) Efficient Training Scaling: A depth-growth paradigm that
enables scaling from 1.6B to 4.8B parameters with significantly reduced
computational resources, combined with a memory-efficient 8-bit optimizer. (2)
Model Depth Pruning: A block importance analysis technique for efficient model
compression to arbitrary sizes with minimal quality loss. (3) Inference-time
Scaling: A repeated sampling strategy that trades computation for model
capacity, enabling smaller models to match larger model quality at inference
time. Through these strategies, SANA-1.5 achieves a text-image alignment score
of 0.72 on GenEval, which can be further improved to 0.80 through inference
scaling, establishing a new SoTA on GenEval benchmark. These innovations enable
efficient model scaling across different compute budgets while maintaining high
quality, making high-quality image generation more accessible.Summary
AI-Generated Summary