Cóctel: Mezcla de Controles Multimodales para la Generación de Imágenes Condicionadas por Texto
Cocktail: Mixing Multi-Modality Controls for Text-Conditional Image Generation
June 1, 2023
Autores: Minghui Hu, Jianbin Zheng, Daqing Liu, Chuanxia Zheng, Chaoyue Wang, Dacheng Tao, Tat-Jen Cham
cs.AI
Resumen
Los modelos de difusión condicionados por texto son capaces de generar imágenes de alta fidelidad con contenidos diversos. Sin embargo, las representaciones lingüísticas frecuentemente presentan descripciones ambiguas de la imaginería objetivo prevista, lo que requiere la incorporación de señales de control adicionales para reforzar la eficacia de los modelos de difusión guiados por texto. En este trabajo, proponemos Cocktail, una canalización para mezclar diversas modalidades en un único embedding, combinado con un ControlNet generalizado (gControlNet), una normalización controlable (ControlNorm) y un método de muestreo con guía espacial, para materializar un control multimodal y refinado espacialmente en modelos de difusión condicionados por texto. Específicamente, introducimos un hiper-red gControlNet, dedicado a la alineación e infusión de las señales de control provenientes de modalidades dispares en el modelo de difusión preentrenado. gControlNet es capaz de aceptar señales de modalidad flexibles, abarcando la recepción simultánea de cualquier combinación de señales de modalidad, o la fusión suplementaria de múltiples señales de modalidad. Las señales de control se fusionan y se inyectan en el modelo principal según nuestra propuesta ControlNorm. Además, nuestra metodología avanzada de muestreo con guía espacial incorpora eficazmente la señal de control en la región designada, evitando así la manifestación de objetos no deseados en la imagen generada. Demostramos los resultados de nuestro método en el control de diversas modalidades, probando una síntesis de alta calidad y fidelidad a múltiples señales externas.
English
Text-conditional diffusion models are able to generate high-fidelity images
with diverse contents. However, linguistic representations frequently exhibit
ambiguous descriptions of the envisioned objective imagery, requiring the
incorporation of additional control signals to bolster the efficacy of
text-guided diffusion models. In this work, we propose Cocktail, a pipeline to
mix various modalities into one embedding, amalgamated with a generalized
ControlNet (gControlNet), a controllable normalisation (ControlNorm), and a
spatial guidance sampling method, to actualize multi-modal and
spatially-refined control for text-conditional diffusion models. Specifically,
we introduce a hyper-network gControlNet, dedicated to the alignment and
infusion of the control signals from disparate modalities into the pre-trained
diffusion model. gControlNet is capable of accepting flexible modality signals,
encompassing the simultaneous reception of any combination of modality signals,
or the supplementary fusion of multiple modality signals. The control signals
are then fused and injected into the backbone model according to our proposed
ControlNorm. Furthermore, our advanced spatial guidance sampling methodology
proficiently incorporates the control signal into the designated region,
thereby circumventing the manifestation of undesired objects within the
generated image. We demonstrate the results of our method in controlling
various modalities, proving high-quality synthesis and fidelity to multiple
external signals.