OminiControl: Минимальное и универсальное управление для Диффузионного Трансформера
OminiControl: Minimal and Universal Control for Diffusion Transformer
November 22, 2024
Авторы: Zhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang
cs.AI
Аннотация
В данной статье мы представляем OminiControl - высокоуниверсальную и
параметроэффективную структуру, интегрирующую условия изображения в предварительно обученные
модели Диффузионного Трансформера (DiT). В основе OminiControl лежит
механизм повторного использования параметров, позволяющий DiT кодировать условия изображения,
используя себя в качестве мощного основания, и обрабатывать их с помощью гибких
мультимодальных процессоров внимания. В отличие от существующих методов, которые сильно полагаются на дополнительные
модули кодировщика с комплексными архитектурами, OminiControl (1) эффективно и
эффективно интегрирует внедренные условия изображения только с добавлением ~0.1% дополнительных
параметров, и (2) решает широкий спектр задач условного форматирования изображения
единообразным образом, включая генерацию, управляемую объектами, и пространственно выровненные
условия, такие как края, глубина и другие. Замечательно, что эти возможности
достигаются путем обучения на изображениях, сгенерированных самим DiT, что
особенно полезно для генерации, управляемой объектами. Обширные оценки
показывают, что OminiControl превосходит существующие модели на основе UNet и адаптированные
модели DiT как в генерации, управляемой объектами, так и в условной генерации с пространственным выравниванием.
Кроме того, мы предоставляем наш набор данных для обучения, Subjects200K, разнообразную
коллекцию из более чем 200 000 изображений, согласованных по идентификации, а также эффективный
процесс синтеза данных для продвижения исследований в области согласованной генерации объектов.
English
In this paper, we introduce OminiControl, a highly versatile and
parameter-efficient framework that integrates image conditions into pre-trained
Diffusion Transformer (DiT) models. At its core, OminiControl leverages a
parameter reuse mechanism, enabling the DiT to encode image conditions using
itself as a powerful backbone and process them with its flexible multi-modal
attention processors. Unlike existing methods, which rely heavily on additional
encoder modules with complex architectures, OminiControl (1) effectively and
efficiently incorporates injected image conditions with only ~0.1% additional
parameters, and (2) addresses a wide range of image conditioning tasks in a
unified manner, including subject-driven generation and spatially-aligned
conditions such as edges, depth, and more. Remarkably, these capabilities are
achieved by training on images generated by the DiT itself, which is
particularly beneficial for subject-driven generation. Extensive evaluations
demonstrate that OminiControl outperforms existing UNet-based and DiT-adapted
models in both subject-driven and spatially-aligned conditional generation.
Additionally, we release our training dataset, Subjects200K, a diverse
collection of over 200,000 identity-consistent images, along with an efficient
data synthesis pipeline to advance research in subject-consistent generation.Summary
AI-Generated Summary