OminiControl: Minimale en Universele Controle voor Diffusion Transformer
OminiControl: Minimal and Universal Control for Diffusion Transformer
November 22, 2024
Auteurs: Zhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang
cs.AI
Samenvatting
In dit artikel introduceren we OminiControl, een zeer veelzijdig en
parameter-efficiënt raamwerk dat beeldcondities integreert in vooraf getrainde
Diffusion Transformer (DiT) modellen. In de kern maakt OminiControl gebruik van een
mechanisme voor hergebruik van parameters, waardoor de DiT in staat is beeldcondities te coderen
met behulp van zichzelf als krachtige ruggengraat en ze te verwerken met zijn flexibele multi-modale
aandachtsverwerkers. In tegenstelling tot bestaande methoden, die zwaar leunen op extra
encoder modules met complexe architecturen, incorporeert OminiControl (1) effectief en
efficiënt geïnjecteerde beeldcondities met slechts ~0.1% extra parameters, en (2) behandelt een breed scala aan beeldconditioneringstaken op een
geünificeerde manier, inclusief door onderwerp gedreven generatie en ruimtelijk uitgelijnde
condities zoals randen, diepte, en meer. Opmerkelijk is dat deze mogelijkheden
worden bereikt door training op beelden die zijn gegenereerd door de DiT zelf, wat
bijzonder gunstig is voor door onderwerp gedreven generatie. Uitgebreide evaluaties
tonen aan dat OminiControl beter presteert dan bestaande op UNet gebaseerde en DiT-aangepaste
modellen in zowel door onderwerp gedreven als ruimtelijk uitgelijnde conditionele generatie.
Daarnaast stellen we ons trainingsdataset, Subjects200K, vrij, een diverse
verzameling van meer dan 200.000 identiteits-consistente beelden, samen met een efficiënte
gegevenssynthesepijplijn om onderzoek naar onderwerp-consistente generatie te bevorderen.
English
In this paper, we introduce OminiControl, a highly versatile and
parameter-efficient framework that integrates image conditions into pre-trained
Diffusion Transformer (DiT) models. At its core, OminiControl leverages a
parameter reuse mechanism, enabling the DiT to encode image conditions using
itself as a powerful backbone and process them with its flexible multi-modal
attention processors. Unlike existing methods, which rely heavily on additional
encoder modules with complex architectures, OminiControl (1) effectively and
efficiently incorporates injected image conditions with only ~0.1% additional
parameters, and (2) addresses a wide range of image conditioning tasks in a
unified manner, including subject-driven generation and spatially-aligned
conditions such as edges, depth, and more. Remarkably, these capabilities are
achieved by training on images generated by the DiT itself, which is
particularly beneficial for subject-driven generation. Extensive evaluations
demonstrate that OminiControl outperforms existing UNet-based and DiT-adapted
models in both subject-driven and spatially-aligned conditional generation.
Additionally, we release our training dataset, Subjects200K, a diverse
collection of over 200,000 identity-consistent images, along with an efficient
data synthesis pipeline to advance research in subject-consistent generation.