PanGu-Draw: Avanzamenti nella Sintesi Efficiente di Immagini da Testo con Addestramento Sincrono-Decollato e Coop-Diffusione Riusabile

Abstract

Gli attuali modelli di diffusione su larga scala rappresentano un enorme balzo in avanti nella sintesi di immagini condizionate, essendo in grado di interpretare segnali diversificati come testo, pose umane e contorni. Tuttavia, la loro dipendenza da risorse computazionali sostanziali e da un'ampia raccolta di dati rimane un collo di bottiglia. D'altro canto, l'integrazione di modelli di diffusione esistenti, ciascuno specializzato per controlli diversi e operante in spazi latenti unici, rappresenta una sfida a causa di risoluzioni di immagini incompatibili e strutture di incorporamento dello spazio latente, ostacolandone l'uso congiunto. Affrontando questi vincoli, presentiamo "PanGu-Draw", un nuovo modello di diffusione latente progettato per la sintesi efficiente di immagini da testo che si adatta abilmente a segnali di controllo multipli. Proponiamo innanzitutto una Strategia di Addestramento a Decoupling Temporale efficiente in termini di risorse, che divide il modello monolitico di sintesi di immagini da testo in generatori di struttura e texture. Ciascun generatore viene addestrato utilizzando un regime che massimizza l'utilizzo dei dati e l'efficienza computazionale, riducendo la preparazione dei dati del 48% e le risorse di addestramento del 51%. In secondo luogo, introduciamo "Coop-Diffusion", un algoritmo che consente l'uso cooperativo di vari modelli di diffusione pre-addestrati con spazi latenti diversi e risoluzioni predefinite all'interno di un processo di denoising unificato. Ciò permette la sintesi di immagini con controlli multipli a risoluzioni arbitrarie senza la necessità di dati aggiuntivi o riaddestramento. Le validazioni empiriche di PanGu-Draw ne dimostrano l'eccezionale capacità nella generazione di immagini da testo e con controlli multipli, suggerendo una direzione promettente per future efficienze nell'addestramento dei modelli e versatilità nella generazione. Il più grande modello T2I da 5B di PanGu-Draw è stato rilasciato sulla piattaforma Ascend. Pagina del progetto: https://pangu-draw.github.io

English

Current large-scale diffusion models represent a giant leap forward in conditional image synthesis, capable of interpreting diverse cues like text, human poses, and edges. However, their reliance on substantial computational resources and extensive data collection remains a bottleneck. On the other hand, the integration of existing diffusion models, each specialized for different controls and operating in unique latent spaces, poses a challenge due to incompatible image resolutions and latent space embedding structures, hindering their joint use. Addressing these constraints, we present "PanGu-Draw", a novel latent diffusion model designed for resource-efficient text-to-image synthesis that adeptly accommodates multiple control signals. We first propose a resource-efficient Time-Decoupling Training Strategy, which splits the monolithic text-to-image model into structure and texture generators. Each generator is trained using a regimen that maximizes data utilization and computational efficiency, cutting data preparation by 48% and reducing training resources by 51%. Secondly, we introduce "Coop-Diffusion", an algorithm that enables the cooperative use of various pre-trained diffusion models with different latent spaces and predefined resolutions within a unified denoising process. This allows for multi-control image synthesis at arbitrary resolutions without the necessity for additional data or retraining. Empirical validations of Pangu-Draw show its exceptional prowess in text-to-image and multi-control image generation, suggesting a promising direction for future model training efficiencies and generation versatility. The largest 5B T2I PanGu-Draw model is released on the Ascend platform. Project page: https://pangu-draw.github.io

PanGu-Draw: Avanzamenti nella Sintesi Efficiente di Immagini da Testo con Addestramento Sincrono-Decollato e Coop-Diffusione Riusabile

PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

Abstract

Support