ChatPaper.aiChatPaper

SANA 1.5: Эффективное масштабирование вычислений времени обучения и времени вывода в линейном диффузионном трансформере

SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer

January 30, 2025
Авторы: Enze Xie, Junsong Chen, Yuyang Zhao, Jincheng Yu, Ligeng Zhu, Yujun Lin, Zhekai Zhang, Muyang Li, Junyu Chen, Han Cai, Bingchen Liu, Daquan Zhou, Song Han
cs.AI

Аннотация

Данный доклад представляет SANA-1.5, линейный Диффузионный Трансформер для эффективного масштабирования в генерации текста к изображению. Основываясь на SANA-1.0, мы представляем три ключевых инновации: (1) Эффективное масштабирование обучения: парадигма увеличения глубины, позволяющая масштабировать от 1.6B до 4.8B параметров с значительным сокращением вычислительных ресурсов, в сочетании с эффективным по памяти оптимизатором 8 бит. (2) Обрезка глубины модели: техника анализа важности блока для эффективного сжатия модели до произвольных размеров с минимальной потерей качества. (3) Масштабирование на этапе вывода: стратегия повторного выбора, которая обменивает вычисления на емкость модели, позволяя более маленьким моделям соответствовать качеству более крупных моделей на этапе вывода. Благодаря этим стратегиям, SANA-1.5 достигает оценки согласования текста и изображения 0.72 на GenEval, которая может быть дополнительно улучшена до 0.80 через масштабирование на этапе вывода, устанавливая новый SoTA на бенчмарке GenEval. Эти инновации обеспечивают эффективное масштабирование модели в различных бюджетах вычислений, сохраняя высокое качество и делая генерацию изображений высокого качества более доступной.
English
This paper presents SANA-1.5, a linear Diffusion Transformer for efficient scaling in text-to-image generation. Building upon SANA-1.0, we introduce three key innovations: (1) Efficient Training Scaling: A depth-growth paradigm that enables scaling from 1.6B to 4.8B parameters with significantly reduced computational resources, combined with a memory-efficient 8-bit optimizer. (2) Model Depth Pruning: A block importance analysis technique for efficient model compression to arbitrary sizes with minimal quality loss. (3) Inference-time Scaling: A repeated sampling strategy that trades computation for model capacity, enabling smaller models to match larger model quality at inference time. Through these strategies, SANA-1.5 achieves a text-image alignment score of 0.72 on GenEval, which can be further improved to 0.80 through inference scaling, establishing a new SoTA on GenEval benchmark. These innovations enable efficient model scaling across different compute budgets while maintaining high quality, making high-quality image generation more accessible.

Summary

AI-Generated Summary

PDF192February 1, 2025