OminiControl: Control Mínimo y Universal para el Transformador de Difusión
OminiControl: Minimal and Universal Control for Diffusion Transformer
November 22, 2024
Autores: Zhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang
cs.AI
Resumen
En este documento, presentamos OminiControl, un marco altamente versátil y eficiente en parámetros que integra condiciones de imagen en modelos pre-entrenados de Transformadores de Difusión (DiT). En su núcleo, OminiControl aprovecha un mecanismo de reutilización de parámetros, permitiendo que el DiT codifique las condiciones de imagen utilizando a sí mismo como una columna vertebral poderosa y las procese con sus flexibles procesadores de atención multi-modales. A diferencia de los métodos existentes, que dependen en gran medida de módulos de codificador adicionales con arquitecturas complejas, OminiControl (1) incorpora de manera efectiva y eficiente condiciones de imagen inyectadas con solo ~0.1% de parámetros adicionales, y (2) aborda una amplia gama de tareas de condicionamiento de imagen de manera unificada, incluida la generación impulsada por el sujeto y condiciones alineadas espacialmente como bordes, profundidad y más. Notablemente, estas capacidades se logran entrenando en imágenes generadas por el propio DiT, lo cual es particularmente beneficioso para la generación impulsada por el sujeto. Evaluaciones exhaustivas demuestran que OminiControl supera a los modelos existentes basados en UNet y adaptados a DiT tanto en generación condicional impulsada por el sujeto como alineada espacialmente. Además, publicamos nuestro conjunto de datos de entrenamiento, Subjects200K, una colección diversa de más de 200,000 imágenes consistentes en identidad, junto con un eficiente proceso de síntesis de datos para avanzar en la investigación en generación consistente en sujetos.
English
In this paper, we introduce OminiControl, a highly versatile and
parameter-efficient framework that integrates image conditions into pre-trained
Diffusion Transformer (DiT) models. At its core, OminiControl leverages a
parameter reuse mechanism, enabling the DiT to encode image conditions using
itself as a powerful backbone and process them with its flexible multi-modal
attention processors. Unlike existing methods, which rely heavily on additional
encoder modules with complex architectures, OminiControl (1) effectively and
efficiently incorporates injected image conditions with only ~0.1% additional
parameters, and (2) addresses a wide range of image conditioning tasks in a
unified manner, including subject-driven generation and spatially-aligned
conditions such as edges, depth, and more. Remarkably, these capabilities are
achieved by training on images generated by the DiT itself, which is
particularly beneficial for subject-driven generation. Extensive evaluations
demonstrate that OminiControl outperforms existing UNet-based and DiT-adapted
models in both subject-driven and spatially-aligned conditional generation.
Additionally, we release our training dataset, Subjects200K, a diverse
collection of over 200,000 identity-consistent images, along with an efficient
data synthesis pipeline to advance research in subject-consistent generation.Summary
AI-Generated Summary