ChatPaper.aiChatPaper

Жадный рост обеспечивает модели диффузии на основе пикселей высокого разрешения.

Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models

May 27, 2024
Авторы: Cristina N. Vasconcelos, Abdullah Rashwan Austin Waters, Trevor Walker, Keyang Xu, Jimmy Yan, Rui Qian, Shixin Luo, Zarana Parekh, Andrew Bunner, Hongliang Fei, Roopal Garg, Mandy Guo, Ivana Kajic, Yeqing Li, Henna Nandwani, Jordi Pont-Tuset, Yasumasa Onoe, Sarah Rosston, Su Wang, Wenlei Zhou, Kevin Swersky, David J. Fleet, Jason M. Baldridge, Oliver Wang
cs.AI

Аннотация

Мы решаем давнюю проблему обучения эффективных моделей диффузии изображений на основе пикселей в масштабе, представляя замечательно простой жадный метод наращивания для стабильного обучения моделей большого масштаба с высоким разрешением без необходимости каскадных компонентов повышения разрешения. Ключевое открытие происходит из тщательного предварительного обучения основных компонентов, а именно тех, которые отвечают за выравнивание текста и изображения и высокоразрешающую рендеринг. Сначала мы демонстрируем преимущества масштабирования Shallow UNet без кодировщика с понижающим(повышающим) дискретизатором. Показано, что масштабирование его глубоких ядерных слоев улучшает выравнивание, структуру объекта и композицию. Основываясь на этой основной модели, мы предлагаем жадный алгоритм, который наращивает архитектуру в модели конечного разрешения, сохраняя целостность предварительно обученного представления, стабилизируя обучение и уменьшая необходимость в больших наборах данных высокого разрешения. Это позволяет создать модель одного этапа, способную генерировать изображения высокого разрешения без необходимости каскада повышения разрешения. Наши ключевые результаты основаны на общедоступных наборах данных и показывают, что мы можем обучать некаскадные модели до 8 миллиардов параметров без дополнительных схем регуляризации. Vermeer, наша полная модель конвейера, обученная на внутренних наборах данных для создания изображений размером 1024x1024 без каскадов, предпочтительна для 44,0% по сравнению с 21,4% человеческих оценщиков по сравнению с SDXL.
English
We address the long-standing problem of how to learn effective pixel-based image diffusion models at scale, introducing a remarkably simple greedy growing method for stable training of large-scale, high-resolution models. without the needs for cascaded super-resolution components. The key insight stems from careful pre-training of core components, namely, those responsible for text-to-image alignment {\it vs.} high-resolution rendering. We first demonstrate the benefits of scaling a {\it Shallow UNet}, with no down(up)-sampling enc(dec)oder. Scaling its deep core layers is shown to improve alignment, object structure, and composition. Building on this core model, we propose a greedy algorithm that grows the architecture into high-resolution end-to-end models, while preserving the integrity of the pre-trained representation, stabilizing training, and reducing the need for large high-resolution datasets. This enables a single stage model capable of generating high-resolution images without the need of a super-resolution cascade. Our key results rely on public datasets and show that we are able to train non-cascaded models up to 8B parameters with no further regularization schemes. Vermeer, our full pipeline model trained with internal datasets to produce 1024x1024 images, without cascades, is preferred by 44.0% vs. 21.4% human evaluators over SDXL.

Summary

AI-Generated Summary

PDF80December 12, 2024