ChatPaper.aiChatPaper

Réaliser un Scaling Économique : Un Modèle de Diffusion en Cascade Automatique pour l'Adaptation à des Résolutions Supérieures

Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation

February 16, 2024
papers.authors: Lanqing Guo, Yingqing He, Haoxin Chen, Menghan Xia, Xiaodong Cun, Yufei Wang, Siyu Huang, Yong Zhang, Xintao Wang, Qifeng Chen, Ying Shan, Bihan Wen
cs.AI

papers.abstract

Les modèles de diffusion se sont avérés très efficaces pour la génération d'images et de vidéos ; cependant, ils rencontrent encore des défis de composition lors de la génération d'images de tailles variées en raison de données d'entraînement à échelle unique. L'adaptation de grands modèles de diffusion pré-entraînés pour des résolutions plus élevées nécessite des ressources computationnelles et d'optimisation substantielles, mais atteindre une capacité de génération comparable à celle des modèles à basse résolution reste difficile. Cet article propose un nouveau modèle de diffusion en cascade auto-adaptatif qui exploite les connaissances riches acquises par un modèle bien entraîné à basse résolution pour une adaptation rapide à la génération d'images et de vidéos à plus haute résolution, en utilisant des paradigmes de réglage sans ajustement ou avec un suréchantillonneur peu coûteux. En intégrant une séquence de modules de suréchantillonnage multi-échelles, le modèle de diffusion en cascade auto-adaptatif peut s'adapter efficacement à une résolution plus élevée, tout en préservant les capacités de composition et de génération originales. Nous proposons en outre une stratégie de réordonnancement du bruit guidée par un pivot pour accélérer le processus d'inférence et améliorer les détails structurels locaux. Par rapport à un réglage complet, notre approche permet une accélération de l'entraînement par un facteur de 5 et ne nécessite que 0,002M paramètres de réglage supplémentaires. Des expériences approfondies démontrent que notre approche peut s'adapter rapidement à la synthèse d'images et de vidéos à plus haute résolution en effectuant un réglage fin en seulement 10 000 étapes, avec pratiquement aucun temps d'inférence supplémentaire.
English
Diffusion models have proven to be highly effective in image and video generation; however, they still face composition challenges when generating images of varying sizes due to single-scale training data. Adapting large pre-trained diffusion models for higher resolution demands substantial computational and optimization resources, yet achieving a generation capability comparable to low-resolution models remains elusive. This paper proposes a novel self-cascade diffusion model that leverages the rich knowledge gained from a well-trained low-resolution model for rapid adaptation to higher-resolution image and video generation, employing either tuning-free or cheap upsampler tuning paradigms. Integrating a sequence of multi-scale upsampler modules, the self-cascade diffusion model can efficiently adapt to a higher resolution, preserving the original composition and generation capabilities. We further propose a pivot-guided noise re-schedule strategy to speed up the inference process and improve local structural details. Compared to full fine-tuning, our approach achieves a 5X training speed-up and requires only an additional 0.002M tuning parameters. Extensive experiments demonstrate that our approach can quickly adapt to higher resolution image and video synthesis by fine-tuning for just 10k steps, with virtually no additional inference time.
PDF181December 15, 2024