UniControl: Ein einheitliches Diffusionsmodell für kontrollierbare visuelle Erzeugung in der realen Welt

Zusammenfassung

Die Erreichung von Maschinenautonomie und menschlicher Kontrolle stellt oft divergierende Ziele im Design interaktiver KI-Systeme dar. Visuelle generative Basismodelle wie Stable Diffusion zeigen Potenzial bei der Bewältigung dieser Ziele, insbesondere wenn sie mit beliebigen Sprachen angeregt werden. Allerdings gelingt es ihnen häufig nicht, Bilder mit räumlichen, strukturellen oder geometrischen Steuerungen zu erzeugen. Die Integration solcher Steuerungen, die verschiedene visuelle Bedingungen in einem einzigen einheitlichen Modell berücksichtigen können, bleibt eine ungelöste Herausforderung. Als Antwort darauf stellen wir UniControl vor, ein neues generatives Basismodell, das eine Vielzahl von steuerbaren Bedingungs-zu-Bild (C2I)-Aufgaben in einem einzigen Framework konsolidiert, während es weiterhin beliebige Sprachprompts zulässt. UniControl ermöglicht eine pixelgenaue Bildgenerierung, bei der visuelle Bedingungen hauptsächlich die erzeugten Strukturen beeinflussen und Sprachprompts den Stil und Kontext lenken. Um UniControl mit der Fähigkeit auszustatten, diverse visuelle Bedingungen zu verarbeiten, erweitern wir vortrainierte Text-zu-Bild-Diffusionsmodelle und führen ein aufgabenbewusstes HyperNet ein, das die Diffusionsmodelle moduliert und die Anpassung an verschiedene C2I-Aufgaben gleichzeitig ermöglicht. Nach dem Training an neun einzigartigen C2I-Aufgaben demonstriert UniControl beeindruckende Zero-Shot-Generierungsfähigkeiten mit unbekannten visuellen Bedingungen. Experimentelle Ergebnisse zeigen, dass UniControl oft die Leistung von Einzelaufgaben-steuerbaren Methoden vergleichbarer Modellgrößen übertrifft. Diese Steuerungsvielfalt positioniert UniControl als einen bedeutenden Fortschritt im Bereich der steuerbaren visuellen Generierung.

English

Achieving machine autonomy and human control often represent divergent objectives in the design of interactive AI systems. Visual generative foundation models such as Stable Diffusion show promise in navigating these goals, especially when prompted with arbitrary languages. However, they often fall short in generating images with spatial, structural, or geometric controls. The integration of such controls, which can accommodate various visual conditions in a single unified model, remains an unaddressed challenge. In response, we introduce UniControl, a new generative foundation model that consolidates a wide array of controllable condition-to-image (C2I) tasks within a singular framework, while still allowing for arbitrary language prompts. UniControl enables pixel-level-precise image generation, where visual conditions primarily influence the generated structures and language prompts guide the style and context. To equip UniControl with the capacity to handle diverse visual conditions, we augment pretrained text-to-image diffusion models and introduce a task-aware HyperNet to modulate the diffusion models, enabling the adaptation to different C2I tasks simultaneously. Trained on nine unique C2I tasks, UniControl demonstrates impressive zero-shot generation abilities with unseen visual conditions. Experimental results show that UniControl often surpasses the performance of single-task-controlled methods of comparable model sizes. This control versatility positions UniControl as a significant advancement in the realm of controllable visual generation.

UniControl: Ein einheitliches Diffusionsmodell für kontrollierbare visuelle Erzeugung in der realen Welt

UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

Zusammenfassung

Support