ChatPaper.aiChatPaper

탐욕적 성장 전략을 통한 고해상도 픽셀 기반 확산 모델 구현

Greedy Growing Enables High-Resolution Pixel-Based Diffusion Models

May 27, 2024
저자: Cristina N. Vasconcelos, Abdullah Rashwan Austin Waters, Trevor Walker, Keyang Xu, Jimmy Yan, Rui Qian, Shixin Luo, Zarana Parekh, Andrew Bunner, Hongliang Fei, Roopal Garg, Mandy Guo, Ivana Kajic, Yeqing Li, Henna Nandwani, Jordi Pont-Tuset, Yasumasa Onoe, Sarah Rosston, Su Wang, Wenlei Zhou, Kevin Swersky, David J. Fleet, Jason M. Baldridge, Oliver Wang
cs.AI

초록

우리는 대규모 픽셀 기반 이미지 확산 모델을 효과적으로 학습시키는 오랜 문제를 해결하기 위해, 캐스케이드 초해상도 구성 요소 없이도 대규모 고해상도 모델을 안정적으로 훈련시킬 수 있는 매우 간단한 탐욕적 성장 방법을 소개합니다. 핵심 통찰은 텍스트-이미지 정렬과 고해상도 렌더링을 담당하는 핵심 구성 요소를 신중하게 사전 훈련하는 데서 비롯됩니다. 먼저, 다운(업)샘플링 인코더(디코더)가 없는 {\it 얕은 UNet}을 확장하는 이점을 보여줍니다. 이 모델의 깊은 핵심 레이어를 확장함으로써 정렬, 객체 구조, 구성을 개선할 수 있음을 입증합니다. 이 핵심 모델을 기반으로, 사전 훈련된 표현의 무결성을 유지하면서 훈련을 안정화하고 대규모 고해상도 데이터셋의 필요성을 줄이는 탐욕적 알고리즘을 제안합니다. 이를 통해 단일 단계 모델로 초해상도 캐스케이드 없이도 고해상도 이미지를 생성할 수 있습니다. 우리의 주요 결과는 공개 데이터셋을 기반으로 하며, 추가 정규화 기법 없이도 80억 개의 매개변수를 가진 비캐스케이드 모델을 훈련시킬 수 있음을 보여줍니다. 내부 데이터셋으로 훈련된 1024x1024 이미지를 생성하는 우리의 전체 파이프라인 모델인 Vermeer은 SDXL 대비 44.0% 대 21.4%로 인간 평가자들에게 더 선호되었습니다.
English
We address the long-standing problem of how to learn effective pixel-based image diffusion models at scale, introducing a remarkably simple greedy growing method for stable training of large-scale, high-resolution models. without the needs for cascaded super-resolution components. The key insight stems from careful pre-training of core components, namely, those responsible for text-to-image alignment {\it vs.} high-resolution rendering. We first demonstrate the benefits of scaling a {\it Shallow UNet}, with no down(up)-sampling enc(dec)oder. Scaling its deep core layers is shown to improve alignment, object structure, and composition. Building on this core model, we propose a greedy algorithm that grows the architecture into high-resolution end-to-end models, while preserving the integrity of the pre-trained representation, stabilizing training, and reducing the need for large high-resolution datasets. This enables a single stage model capable of generating high-resolution images without the need of a super-resolution cascade. Our key results rely on public datasets and show that we are able to train non-cascaded models up to 8B parameters with no further regularization schemes. Vermeer, our full pipeline model trained with internal datasets to produce 1024x1024 images, without cascades, is preferred by 44.0% vs. 21.4% human evaluators over SDXL.

Summary

AI-Generated Summary

PDF80December 12, 2024