UniControl: Een Geünificeerd Diffusiemodel voor Beheersbare Visuele Generatie In de Praktijk
UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild
May 18, 2023
Auteurs: Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, Stefano Ermon, Yun Fu, Ran Xu
cs.AI
Samenvatting
Het bereiken van machine-autonomie en menselijke controle vertegenwoordigen vaak uiteenlopende doelstellingen bij het ontwerpen van interactieve AI-systemen. Visuele generatieve foundation-modellen zoals Stable Diffusion tonen potentie in het navigeren tussen deze doelen, vooral wanneer ze worden aangestuurd met willekeurige talen. Ze schieten echter vaak tekort in het genereren van afbeeldingen met ruimtelijke, structurele of geometrische controles. De integratie van dergelijke controles, die verschillende visuele condities in één verenigd model kunnen accommoderen, blijft een onopgeloste uitdaging. Als antwoord hierop introduceren we UniControl, een nieuw generatief foundation-model dat een breed scala aan controleerbare conditie-naar-afbeelding (C2I) taken consolideert binnen een enkel framework, terwijl het nog steeds willekeurige taalprompts toestaat. UniControl maakt pixelprecieze beeldgeneratie mogelijk, waarbij visuele condities voornamelijk de gegenereerde structuren beïnvloeden en taalprompts de stijl en context sturen. Om UniControl uit te rusten met de capaciteit om diverse visuele condities te hanteren, versterken we voorgetrainde tekst-naar-afbeelding diffusiemodellen en introduceren we een taakbewuste HyperNet om de diffusiemodellen te moduleren, waardoor aanpassing aan verschillende C2I-taken tegelijkertijd mogelijk wordt. Getraind op negen unieke C2I-taken, toont UniControl indrukwekkende zero-shot generatiecapaciteiten met ongeziene visuele condities. Experimentele resultaten laten zien dat UniControl vaak de prestaties overtreft van enkelvoudige taakgecontroleerde methoden met vergelijkbare modelgroottes. Deze controleerbare veelzijdigheid positioneert UniControl als een significante vooruitgang in het domein van controleerbare visuele generatie.
English
Achieving machine autonomy and human control often represent divergent
objectives in the design of interactive AI systems. Visual generative
foundation models such as Stable Diffusion show promise in navigating these
goals, especially when prompted with arbitrary languages. However, they often
fall short in generating images with spatial, structural, or geometric
controls. The integration of such controls, which can accommodate various
visual conditions in a single unified model, remains an unaddressed challenge.
In response, we introduce UniControl, a new generative foundation model that
consolidates a wide array of controllable condition-to-image (C2I) tasks within
a singular framework, while still allowing for arbitrary language prompts.
UniControl enables pixel-level-precise image generation, where visual
conditions primarily influence the generated structures and language prompts
guide the style and context. To equip UniControl with the capacity to handle
diverse visual conditions, we augment pretrained text-to-image diffusion models
and introduce a task-aware HyperNet to modulate the diffusion models, enabling
the adaptation to different C2I tasks simultaneously. Trained on nine unique
C2I tasks, UniControl demonstrates impressive zero-shot generation abilities
with unseen visual conditions. Experimental results show that UniControl often
surpasses the performance of single-task-controlled methods of comparable model
sizes. This control versatility positions UniControl as a significant
advancement in the realm of controllable visual generation.