ChatPaper.aiChatPaper

OminiControl: Minimale und universelle Steuerung für den Diffusionstransformator

OminiControl: Minimal and Universal Control for Diffusion Transformer

November 22, 2024
Autoren: Zhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang
cs.AI

Zusammenfassung

In diesem Paper stellen wir OminiControl vor, ein äußerst vielseitiges und parameter-effizientes Framework, das Bildbedingungen in vortrainierte Diffusion Transformer (DiT) Modelle integriert. Im Kern nutzt OminiControl einen Mechanismus zur Parameterwiederverwendung, der es dem DiT ermöglicht, Bildbedingungen mithilfe seiner selbst als leistungsstarkem Rückgrat zu kodieren und mit seinen flexiblen multimodalen Aufmerksamkeitsverarbeitern zu verarbeiten. Im Gegensatz zu bestehenden Methoden, die stark auf zusätzliche Encoder-Module mit komplexen Architekturen angewiesen sind, integriert OminiControl (1) injizierte Bildbedingungen effektiv und effizient mit nur ~0,1% zusätzlichen Parametern und (2) behandelt eine Vielzahl von Bildkonditionierungsaufgaben auf einheitliche Weise, einschließlich subjektgesteuerter Generierung und räumlich ausgerichteter Bedingungen wie Kanten, Tiefe und mehr. Diese Fähigkeiten werden durch das Training an Bildern, die vom DiT selbst generiert wurden, erreicht, was insbesondere für die subjektgesteuerte Generierung vorteilhaft ist. Umfangreiche Evaluationen zeigen, dass OminiControl bestehende UNet-basierte und DiT-adaptierte Modelle sowohl in der subjektgesteuerten als auch in der räumlich ausgerichteten bedingten Generierung übertrifft. Darüber hinaus veröffentlichen wir unseren Trainingsdatensatz, Subjects200K, eine vielfältige Sammlung von über 200.000 identitätskonsistenten Bildern, zusammen mit einer effizienten Datensynthesepipeline, um die Forschung im Bereich der subjektkonsistenten Generierung voranzutreiben.
English
In this paper, we introduce OminiControl, a highly versatile and parameter-efficient framework that integrates image conditions into pre-trained Diffusion Transformer (DiT) models. At its core, OminiControl leverages a parameter reuse mechanism, enabling the DiT to encode image conditions using itself as a powerful backbone and process them with its flexible multi-modal attention processors. Unlike existing methods, which rely heavily on additional encoder modules with complex architectures, OminiControl (1) effectively and efficiently incorporates injected image conditions with only ~0.1% additional parameters, and (2) addresses a wide range of image conditioning tasks in a unified manner, including subject-driven generation and spatially-aligned conditions such as edges, depth, and more. Remarkably, these capabilities are achieved by training on images generated by the DiT itself, which is particularly beneficial for subject-driven generation. Extensive evaluations demonstrate that OminiControl outperforms existing UNet-based and DiT-adapted models in both subject-driven and spatially-aligned conditional generation. Additionally, we release our training dataset, Subjects200K, a diverse collection of over 200,000 identity-consistent images, along with an efficient data synthesis pipeline to advance research in subject-consistent generation.

Summary

AI-Generated Summary

PDF6010November 25, 2024