ChatPaper.aiChatPaper

PanGu-Draw: Развитие ресурсоэффективного синтеза изображений из текста с использованием временно-разделенного обучения и повторно используемого Coop-Diffusion

PanGu-Draw: Advancing Resource-Efficient Text-to-Image Synthesis with Time-Decoupled Training and Reusable Coop-Diffusion

December 27, 2023
Авторы: Guansong Lu, Yuanfan Guo, Jianhua Han, Minzhe Niu, Yihan Zeng, Songcen Xu, Zeyi Huang, Zhao Zhong, Wei Zhang, Hang Xu
cs.AI

Аннотация

Современные крупномасштабные диффузионные модели представляют собой значительный прорыв в области условного синтеза изображений, способный интерпретировать разнообразные сигналы, такие как текст, позы человека и контуры. Однако их зависимость от значительных вычислительных ресурсов и обширного сбора данных остается узким местом. С другой стороны, интеграция существующих диффузионных моделей, каждая из которых специализируется на различных типах управления и работает в уникальных латентных пространствах, представляет собой сложность из-за несовместимых разрешений изображений и структур встраивания латентных пространств, что затрудняет их совместное использование. Для решения этих ограничений мы представляем "PanGu-Draw", новую латентную диффузионную модель, разработанную для ресурсоэффективного синтеза изображений по тексту, которая эффективно поддерживает множественные управляющие сигналы. Во-первых, мы предлагаем ресурсоэффективную стратегию обучения с разделением по времени, которая разделяет монолитную модель синтеза изображений по тексту на генераторы структуры и текстуры. Каждый генератор обучается с использованием методики, которая максимизирует использование данных и вычислительную эффективность, сокращая подготовку данных на 48% и уменьшая ресурсы для обучения на 51%. Во-вторых, мы представляем "Coop-Diffusion", алгоритм, который позволяет совместно использовать различные предварительно обученные диффузионные модели с разными латентными пространствами и предопределенными разрешениями в рамках единого процесса удаления шума. Это позволяет осуществлять синтез изображений с множественным управлением при произвольных разрешениях без необходимости дополнительных данных или переобучения. Эмпирические проверки PanGu-Draw демонстрируют его исключительные способности в синтезе изображений по тексту и генерации изображений с множественным управлением, указывая на перспективное направление для повышения эффективности обучения моделей и универсальности генерации. Самая крупная 5B T2I модель PanGu-Draw выпущена на платформе Ascend. Страница проекта: https://pangu-draw.github.io.
English
Current large-scale diffusion models represent a giant leap forward in conditional image synthesis, capable of interpreting diverse cues like text, human poses, and edges. However, their reliance on substantial computational resources and extensive data collection remains a bottleneck. On the other hand, the integration of existing diffusion models, each specialized for different controls and operating in unique latent spaces, poses a challenge due to incompatible image resolutions and latent space embedding structures, hindering their joint use. Addressing these constraints, we present "PanGu-Draw", a novel latent diffusion model designed for resource-efficient text-to-image synthesis that adeptly accommodates multiple control signals. We first propose a resource-efficient Time-Decoupling Training Strategy, which splits the monolithic text-to-image model into structure and texture generators. Each generator is trained using a regimen that maximizes data utilization and computational efficiency, cutting data preparation by 48% and reducing training resources by 51%. Secondly, we introduce "Coop-Diffusion", an algorithm that enables the cooperative use of various pre-trained diffusion models with different latent spaces and predefined resolutions within a unified denoising process. This allows for multi-control image synthesis at arbitrary resolutions without the necessity for additional data or retraining. Empirical validations of Pangu-Draw show its exceptional prowess in text-to-image and multi-control image generation, suggesting a promising direction for future model training efficiencies and generation versatility. The largest 5B T2I PanGu-Draw model is released on the Ascend platform. Project page: https://pangu-draw.github.io
PDF71December 15, 2024