ChatPaper.aiChatPaper

Дешевое масштабирование: Самокаскадная диффузионная модель для адаптации к более высокому разрешению

Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

February 16, 2024
Авторы: Lanqing Guo, Yingqing He, Haoxin Chen, Menghan Xia, Xiaodong Cun, Yufei Wang, Siyu Huang, Yong Zhang, Xintao Wang, Qifeng Chen, Ying Shan, Bihan Wen
cs.AI

Аннотация

Диффузионные модели доказали свою высокую эффективность в генерации изображений и видео; однако они по-прежнему сталкиваются с проблемами композиции при создании изображений различных размеров из-за использования обучающих данных одного масштаба. Адаптация крупных предобученных диффузионных моделей для работы с более высоким разрешением требует значительных вычислительных и оптимизационных ресурсов, при этом достижение уровня генерации, сопоставимого с моделями низкого разрешения, остается труднодостижимым. В данной статье предлагается новая самокаскадная диффузионная модель, которая использует богатые знания, полученные из хорошо обученной модели низкого разрешения, для быстрой адаптации к генерации изображений и видео более высокого разрешения, применяя либо беспараметрические, либо экономичные методы настройки апсемплеров. Интегрируя последовательность мультимасштабных модулей апсемплеров, самокаскадная диффузионная модель может эффективно адаптироваться к более высокому разрешению, сохраняя исходные возможности композиции и генерации. Мы также предлагаем стратегию повторного планирования шума с использованием опорных точек для ускорения процесса вывода и улучшения локальных структурных деталей. По сравнению с полной тонкой настройкой, наш подход обеспечивает ускорение обучения в 5 раз и требует всего 0,002 млн дополнительных параметров настройки. Многочисленные эксперименты демонстрируют, что наш подход позволяет быстро адаптироваться к синтезу изображений и видео более высокого разрешения, выполняя тонкую настройку всего за 10 тыс. шагов, практически без увеличения времени вывода.
English
Diffusion models have proven to be highly effective in image and video generation; however, they still face composition challenges when generating images of varying sizes due to single-scale training data. Adapting large pre-trained diffusion models for higher resolution demands substantial computational and optimization resources, yet achieving a generation capability comparable to low-resolution models remains elusive. This paper proposes a novel self-cascade diffusion model that leverages the rich knowledge gained from a well-trained low-resolution model for rapid adaptation to higher-resolution image and video generation, employing either tuning-free or cheap upsampler tuning paradigms. Integrating a sequence of multi-scale upsampler modules, the self-cascade diffusion model can efficiently adapt to a higher resolution, preserving the original composition and generation capabilities. We further propose a pivot-guided noise re-schedule strategy to speed up the inference process and improve local structural details. Compared to full fine-tuning, our approach achieves a 5X training speed-up and requires only an additional 0.002M tuning parameters. Extensive experiments demonstrate that our approach can quickly adapt to higher resolution image and video synthesis by fine-tuning for just 10k steps, with virtually no additional inference time.

Summary

AI-Generated Summary

PDF181December 15, 2024