UniControl: Ein einheitliches Diffusionsmodell für kontrollierbare visuelle Erzeugung in der realen Welt
UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild
May 18, 2023
Autoren: Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, Stefano Ermon, Yun Fu, Ran Xu
cs.AI
Zusammenfassung
Die Erreichung von Maschinenautonomie und menschlicher Kontrolle stellt oft divergierende Ziele im Design interaktiver KI-Systeme dar. Visuelle generative Basismodelle wie Stable Diffusion zeigen Potenzial bei der Bewältigung dieser Ziele, insbesondere wenn sie mit beliebigen Sprachen angeregt werden. Allerdings gelingt es ihnen häufig nicht, Bilder mit räumlichen, strukturellen oder geometrischen Steuerungen zu erzeugen. Die Integration solcher Steuerungen, die verschiedene visuelle Bedingungen in einem einzigen einheitlichen Modell berücksichtigen können, bleibt eine ungelöste Herausforderung. Als Antwort darauf stellen wir UniControl vor, ein neues generatives Basismodell, das eine Vielzahl von steuerbaren Bedingungs-zu-Bild (C2I)-Aufgaben in einem einzigen Framework konsolidiert, während es weiterhin beliebige Sprachprompts zulässt. UniControl ermöglicht eine pixelgenaue Bildgenerierung, bei der visuelle Bedingungen hauptsächlich die erzeugten Strukturen beeinflussen und Sprachprompts den Stil und Kontext lenken. Um UniControl mit der Fähigkeit auszustatten, diverse visuelle Bedingungen zu verarbeiten, erweitern wir vortrainierte Text-zu-Bild-Diffusionsmodelle und führen ein aufgabenbewusstes HyperNet ein, das die Diffusionsmodelle moduliert und die Anpassung an verschiedene C2I-Aufgaben gleichzeitig ermöglicht. Nach dem Training an neun einzigartigen C2I-Aufgaben demonstriert UniControl beeindruckende Zero-Shot-Generierungsfähigkeiten mit unbekannten visuellen Bedingungen. Experimentelle Ergebnisse zeigen, dass UniControl oft die Leistung von Einzelaufgaben-steuerbaren Methoden vergleichbarer Modellgrößen übertrifft. Diese Steuerungsvielfalt positioniert UniControl als einen bedeutenden Fortschritt im Bereich der steuerbaren visuellen Generierung.
English
Achieving machine autonomy and human control often represent divergent
objectives in the design of interactive AI systems. Visual generative
foundation models such as Stable Diffusion show promise in navigating these
goals, especially when prompted with arbitrary languages. However, they often
fall short in generating images with spatial, structural, or geometric
controls. The integration of such controls, which can accommodate various
visual conditions in a single unified model, remains an unaddressed challenge.
In response, we introduce UniControl, a new generative foundation model that
consolidates a wide array of controllable condition-to-image (C2I) tasks within
a singular framework, while still allowing for arbitrary language prompts.
UniControl enables pixel-level-precise image generation, where visual
conditions primarily influence the generated structures and language prompts
guide the style and context. To equip UniControl with the capacity to handle
diverse visual conditions, we augment pretrained text-to-image diffusion models
and introduce a task-aware HyperNet to modulate the diffusion models, enabling
the adaptation to different C2I tasks simultaneously. Trained on nine unique
C2I tasks, UniControl demonstrates impressive zero-shot generation abilities
with unseen visual conditions. Experimental results show that UniControl often
surpasses the performance of single-task-controlled methods of comparable model
sizes. This control versatility positions UniControl as a significant
advancement in the realm of controllable visual generation.