UniControl: Un Modello di Diffusione Unificato per la Generazione Visiva Controllabile in Ambienti Non Controllati

Abstract

Il raggiungimento dell'autonomia delle macchine e del controllo umano rappresentano spesso obiettivi divergenti nella progettazione di sistemi di intelligenza artificiale interattivi. Modelli generativi visivi di base come Stable Diffusion mostrano potenziale nel bilanciare questi obiettivi, specialmente quando sollecitati con linguaggi arbitrari. Tuttavia, spesso non riescono a generare immagini con controlli spaziali, strutturali o geometrici. L'integrazione di tali controlli, che possono accogliere varie condizioni visive in un unico modello unificato, rimane una sfida irrisolta. In risposta, introduciamo UniControl, un nuovo modello generativo di base che consolida un'ampia gamma di attività controllabili da condizione a immagine (C2I) all'interno di un unico framework, pur consentendo l'uso di prompt linguistici arbitrari. UniControl abilita la generazione di immagini con precisione a livello di pixel, dove le condizioni visive influenzano principalmente le strutture generate e i prompt linguistici guidano lo stile e il contesto. Per dotare UniControl della capacità di gestire diverse condizioni visive, potenziamo modelli di diffusione pre-addestrati da testo a immagine e introduciamo un HyperNet consapevole del compito per modulare i modelli di diffusione, consentendo l'adattamento a diverse attività C2I simultaneamente. Addestrato su nove attività C2I uniche, UniControl dimostra impressionanti capacità di generazione zero-shot con condizioni visive mai viste. I risultati sperimentali mostrano che UniControl spesso supera le prestazioni di metodi controllati a singolo compito con dimensioni del modello comparabili. Questa versatilità di controllo posiziona UniControl come un progresso significativo nel campo della generazione visiva controllabile.

English

Achieving machine autonomy and human control often represent divergent objectives in the design of interactive AI systems. Visual generative foundation models such as Stable Diffusion show promise in navigating these goals, especially when prompted with arbitrary languages. However, they often fall short in generating images with spatial, structural, or geometric controls. The integration of such controls, which can accommodate various visual conditions in a single unified model, remains an unaddressed challenge. In response, we introduce UniControl, a new generative foundation model that consolidates a wide array of controllable condition-to-image (C2I) tasks within a singular framework, while still allowing for arbitrary language prompts. UniControl enables pixel-level-precise image generation, where visual conditions primarily influence the generated structures and language prompts guide the style and context. To equip UniControl with the capacity to handle diverse visual conditions, we augment pretrained text-to-image diffusion models and introduce a task-aware HyperNet to modulate the diffusion models, enabling the adaptation to different C2I tasks simultaneously. Trained on nine unique C2I tasks, UniControl demonstrates impressive zero-shot generation abilities with unseen visual conditions. Experimental results show that UniControl often surpasses the performance of single-task-controlled methods of comparable model sizes. This control versatility positions UniControl as a significant advancement in the realm of controllable visual generation.

UniControl: Un Modello di Diffusione Unificato per la Generazione Visiva Controllabile in Ambienti Non Controllati

UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

Abstract

Support