ChatPaper.aiChatPaper

PanGu-Draw: Avanzando en la síntesis eficiente de imágenes a partir de texto con entrenamiento desacoplado temporalmente y Coop-Difusión reutilizable

PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

December 27, 2023
Autores: Guansong Lu, Yuanfan Guo, Jianhua Han, Minzhe Niu, Yihan Zeng, Songcen Xu, Zeyi Huang, Zhao Zhong, Wei Zhang, Hang Xu
cs.AI

Resumen

Los modelos de difusión a gran escala actuales representan un gran avance en la síntesis de imágenes condicionales, siendo capaces de interpretar diversas señales como texto, poses humanas y bordes. Sin embargo, su dependencia de recursos computacionales sustanciales y la recopilación extensiva de datos sigue siendo un cuello de botella. Por otro lado, la integración de modelos de difusión existentes, cada uno especializado en diferentes controles y operando en espacios latentes únicos, presenta un desafío debido a resoluciones de imagen incompatibles y estructuras de incrustación de espacios latentes, lo que dificulta su uso conjunto. Para abordar estas limitaciones, presentamos "PanGu-Draw", un novedoso modelo de difusión latente diseñado para la síntesis eficiente de imágenes a partir de texto que se adapta hábilmente a múltiples señales de control. En primer lugar, proponemos una Estrategia de Entrenamiento con Desacoplamiento Temporal eficiente en recursos, que divide el modelo monolítico de texto a imagen en generadores de estructura y textura. Cada generador se entrena utilizando un régimen que maximiza la utilización de datos y la eficiencia computacional, reduciendo la preparación de datos en un 48% y disminuyendo los recursos de entrenamiento en un 51%. En segundo lugar, introducimos "Coop-Diffusion", un algoritmo que permite el uso cooperativo de varios modelos de difusión preentrenados con diferentes espacios latentes y resoluciones predefinidas dentro de un proceso unificado de eliminación de ruido. Esto permite la síntesis de imágenes con múltiples controles en resoluciones arbitrarias sin la necesidad de datos adicionales o reentrenamiento. Las validaciones empíricas de PanGu-Draw muestran su excepcional destreza en la generación de imágenes a partir de texto y con múltiples controles, sugiriendo una dirección prometedora para futuras eficiencias en el entrenamiento de modelos y versatilidad en la generación. El modelo más grande de PanGu-Draw de 5B T2I se ha lanzado en la plataforma Ascend. Página del proyecto: https://pangu-draw.github.io
English
Current large-scale diffusion models represent a giant leap forward in conditional image synthesis, capable of interpreting diverse cues like text, human poses, and edges. However, their reliance on substantial computational resources and extensive data collection remains a bottleneck. On the other hand, the integration of existing diffusion models, each specialized for different controls and operating in unique latent spaces, poses a challenge due to incompatible image resolutions and latent space embedding structures, hindering their joint use. Addressing these constraints, we present "PanGu-Draw", a novel latent diffusion model designed for resource-efficient text-to-image synthesis that adeptly accommodates multiple control signals. We first propose a resource-efficient Time-Decoupling Training Strategy, which splits the monolithic text-to-image model into structure and texture generators. Each generator is trained using a regimen that maximizes data utilization and computational efficiency, cutting data preparation by 48% and reducing training resources by 51%. Secondly, we introduce "Coop-Diffusion", an algorithm that enables the cooperative use of various pre-trained diffusion models with different latent spaces and predefined resolutions within a unified denoising process. This allows for multi-control image synthesis at arbitrary resolutions without the necessity for additional data or retraining. Empirical validations of Pangu-Draw show its exceptional prowess in text-to-image and multi-control image generation, suggesting a promising direction for future model training efficiencies and generation versatility. The largest 5B T2I PanGu-Draw model is released on the Ascend platform. Project page: https://pangu-draw.github.io
PDF71December 15, 2024