UniControl: Un Modello di Diffusione Unificato per la Generazione Visiva Controllabile in Ambienti Non Controllati
UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild
May 18, 2023
Autori: Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, Stefano Ermon, Yun Fu, Ran Xu
cs.AI
Abstract
Il raggiungimento dell'autonomia delle macchine e del controllo umano rappresentano spesso obiettivi divergenti nella progettazione di sistemi di intelligenza artificiale interattivi. Modelli generativi visivi di base come Stable Diffusion mostrano potenziale nel bilanciare questi obiettivi, specialmente quando sollecitati con linguaggi arbitrari. Tuttavia, spesso non riescono a generare immagini con controlli spaziali, strutturali o geometrici. L'integrazione di tali controlli, che possono accogliere varie condizioni visive in un unico modello unificato, rimane una sfida irrisolta. In risposta, introduciamo UniControl, un nuovo modello generativo di base che consolida un'ampia gamma di attività controllabili da condizione a immagine (C2I) all'interno di un unico framework, pur consentendo l'uso di prompt linguistici arbitrari. UniControl abilita la generazione di immagini con precisione a livello di pixel, dove le condizioni visive influenzano principalmente le strutture generate e i prompt linguistici guidano lo stile e il contesto. Per dotare UniControl della capacità di gestire diverse condizioni visive, potenziamo modelli di diffusione pre-addestrati da testo a immagine e introduciamo un HyperNet consapevole del compito per modulare i modelli di diffusione, consentendo l'adattamento a diverse attività C2I simultaneamente. Addestrato su nove attività C2I uniche, UniControl dimostra impressionanti capacità di generazione zero-shot con condizioni visive mai viste. I risultati sperimentali mostrano che UniControl spesso supera le prestazioni di metodi controllati a singolo compito con dimensioni del modello comparabili. Questa versatilità di controllo posiziona UniControl come un progresso significativo nel campo della generazione visiva controllabile.
English
Achieving machine autonomy and human control often represent divergent
objectives in the design of interactive AI systems. Visual generative
foundation models such as Stable Diffusion show promise in navigating these
goals, especially when prompted with arbitrary languages. However, they often
fall short in generating images with spatial, structural, or geometric
controls. The integration of such controls, which can accommodate various
visual conditions in a single unified model, remains an unaddressed challenge.
In response, we introduce UniControl, a new generative foundation model that
consolidates a wide array of controllable condition-to-image (C2I) tasks within
a singular framework, while still allowing for arbitrary language prompts.
UniControl enables pixel-level-precise image generation, where visual
conditions primarily influence the generated structures and language prompts
guide the style and context. To equip UniControl with the capacity to handle
diverse visual conditions, we augment pretrained text-to-image diffusion models
and introduce a task-aware HyperNet to modulate the diffusion models, enabling
the adaptation to different C2I tasks simultaneously. Trained on nine unique
C2I tasks, UniControl demonstrates impressive zero-shot generation abilities
with unseen visual conditions. Experimental results show that UniControl often
surpasses the performance of single-task-controlled methods of comparable model
sizes. This control versatility positions UniControl as a significant
advancement in the realm of controllable visual generation.