UniControl: Een Geünificeerd Diffusiemodel voor Beheersbare Visuele Generatie In de Praktijk

Samenvatting

Het bereiken van machine-autonomie en menselijke controle vertegenwoordigen vaak uiteenlopende doelstellingen bij het ontwerpen van interactieve AI-systemen. Visuele generatieve foundation-modellen zoals Stable Diffusion tonen potentie in het navigeren tussen deze doelen, vooral wanneer ze worden aangestuurd met willekeurige talen. Ze schieten echter vaak tekort in het genereren van afbeeldingen met ruimtelijke, structurele of geometrische controles. De integratie van dergelijke controles, die verschillende visuele condities in één verenigd model kunnen accommoderen, blijft een onopgeloste uitdaging. Als antwoord hierop introduceren we UniControl, een nieuw generatief foundation-model dat een breed scala aan controleerbare conditie-naar-afbeelding (C2I) taken consolideert binnen een enkel framework, terwijl het nog steeds willekeurige taalprompts toestaat. UniControl maakt pixelprecieze beeldgeneratie mogelijk, waarbij visuele condities voornamelijk de gegenereerde structuren beïnvloeden en taalprompts de stijl en context sturen. Om UniControl uit te rusten met de capaciteit om diverse visuele condities te hanteren, versterken we voorgetrainde tekst-naar-afbeelding diffusiemodellen en introduceren we een taakbewuste HyperNet om de diffusiemodellen te moduleren, waardoor aanpassing aan verschillende C2I-taken tegelijkertijd mogelijk wordt. Getraind op negen unieke C2I-taken, toont UniControl indrukwekkende zero-shot generatiecapaciteiten met ongeziene visuele condities. Experimentele resultaten laten zien dat UniControl vaak de prestaties overtreft van enkelvoudige taakgecontroleerde methoden met vergelijkbare modelgroottes. Deze controleerbare veelzijdigheid positioneert UniControl als een significante vooruitgang in het domein van controleerbare visuele generatie.

English

Achieving machine autonomy and human control often represent divergent objectives in the design of interactive AI systems. Visual generative foundation models such as Stable Diffusion show promise in navigating these goals, especially when prompted with arbitrary languages. However, they often fall short in generating images with spatial, structural, or geometric controls. The integration of such controls, which can accommodate various visual conditions in a single unified model, remains an unaddressed challenge. In response, we introduce UniControl, a new generative foundation model that consolidates a wide array of controllable condition-to-image (C2I) tasks within a singular framework, while still allowing for arbitrary language prompts. UniControl enables pixel-level-precise image generation, where visual conditions primarily influence the generated structures and language prompts guide the style and context. To equip UniControl with the capacity to handle diverse visual conditions, we augment pretrained text-to-image diffusion models and introduce a task-aware HyperNet to modulate the diffusion models, enabling the adaptation to different C2I tasks simultaneously. Trained on nine unique C2I tasks, UniControl demonstrates impressive zero-shot generation abilities with unseen visual conditions. Experimental results show that UniControl often surpasses the performance of single-task-controlled methods of comparable model sizes. This control versatility positions UniControl as a significant advancement in the realm of controllable visual generation.

UniControl: Een Geünificeerd Diffusiemodel voor Beheersbare Visuele Generatie In de Praktijk

UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

Samenvatting

Support