ChatPaper.aiChatPaper

OminiControl : Contrôle Minimal et Universel pour le Transformateur de Diffusion

OminiControl: Minimal and Universal Control for Diffusion Transformer

November 22, 2024
Auteurs: Zhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang
cs.AI

Résumé

Dans cet article, nous présentons OminiControl, un cadre hautement polyvalent et efficace en termes de paramètres qui intègre des conditions d'image dans des modèles de Transformer de Diffusion pré-entraînés (DiT). Au cœur de OminiControl se trouve un mécanisme de réutilisation de paramètres, permettant au DiT d'encoder les conditions d'image en utilisant lui-même comme une colonne vertébrale puissante et de les traiter avec ses processeurs d'attention multi-modaux flexibles. Contrairement aux méthodes existantes, qui s'appuient fortement sur des modules d'encodeur supplémentaires avec des architectures complexes, OminiControl (1) intègre de manière efficace et efficiente des conditions d'image injectées avec seulement ~0,1% de paramètres supplémentaires, et (2) aborde une large gamme de tâches de conditionnement d'image de manière unifiée, y compris la génération pilotée par le sujet et des conditions alignées spatialement telles que les contours, la profondeur, et plus encore. Remarquablement, ces capacités sont obtenues en formant sur des images générées par le DiT lui-même, ce qui est particulièrement bénéfique pour la génération pilotée par le sujet. Des évaluations approfondies démontrent que OminiControl surpasse les modèles existants basés sur UNet et adaptés au DiT à la fois dans la génération conditionnelle pilotée par le sujet et alignée spatialement. De plus, nous mettons à disposition notre ensemble de données d'entraînement, Subjects200K, une collection diversifiée de plus de 200 000 images cohérentes en termes d'identité, ainsi qu'un pipeline efficace de synthèse de données pour faire progresser la recherche en génération cohérente par sujet.
English
In this paper, we introduce OminiControl, a highly versatile and parameter-efficient framework that integrates image conditions into pre-trained Diffusion Transformer (DiT) models. At its core, OminiControl leverages a parameter reuse mechanism, enabling the DiT to encode image conditions using itself as a powerful backbone and process them with its flexible multi-modal attention processors. Unlike existing methods, which rely heavily on additional encoder modules with complex architectures, OminiControl (1) effectively and efficiently incorporates injected image conditions with only ~0.1% additional parameters, and (2) addresses a wide range of image conditioning tasks in a unified manner, including subject-driven generation and spatially-aligned conditions such as edges, depth, and more. Remarkably, these capabilities are achieved by training on images generated by the DiT itself, which is particularly beneficial for subject-driven generation. Extensive evaluations demonstrate that OminiControl outperforms existing UNet-based and DiT-adapted models in both subject-driven and spatially-aligned conditional generation. Additionally, we release our training dataset, Subjects200K, a diverse collection of over 200,000 identity-consistent images, along with an efficient data synthesis pipeline to advance research in subject-consistent generation.

Summary

AI-Generated Summary

PDF6010November 25, 2024