ChatPaper.aiChatPaper

UniControl: 야생 환경에서 제어 가능한 시각적 생성을 위한 통합 확산 모델

UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

May 18, 2023
저자: Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, Stefano Ermon, Yun Fu, Ran Xu
cs.AI

초록

기계 자율성과 인간 제어의 달성은 상호작용형 AI 시스템 설계에서 종종 상반된 목표로 나타납니다. Stable Diffusion과 같은 시각적 생성 기반 모델은 이러한 목표를 조율하는 데 유망한 가능성을 보여주며, 특히 임의의 언어로 프롬프트를 제공할 때 더욱 그러합니다. 그러나 이러한 모델들은 공간적, 구조적 또는 기하학적 제어를 통해 이미지를 생성하는 데 있어 종종 한계를 보입니다. 다양한 시각적 조건을 단일 통합 모델에서 수용할 수 있는 이러한 제어의 통합은 아직 해결되지 않은 과제로 남아 있습니다. 이에 대응하여, 우리는 UniControl이라는 새로운 생성 기반 모델을 소개합니다. UniControl은 다양한 제어 가능한 조건-이미지(C2I) 작업을 단일 프레임워크 내에서 통합하면서도 임의의 언어 프롬프트를 허용합니다. UniControl은 픽셀 수준의 정밀한 이미지 생성을 가능하게 하며, 시각적 조건은 주로 생성된 구조에 영향을 미치고 언어 프롬프트는 스타일과 맥락을 안내합니다. UniControl이 다양한 시각적 조건을 처리할 수 있는 능력을 갖추도록 하기 위해, 우리는 사전 훈련된 텍스트-이미지 확산 모델을 강화하고, 다양한 C2I 작업에 동시에 적응할 수 있도록 확산 모델을 조절하는 작업 인식형 HyperNet을 도입했습니다. 9가지 독특한 C2I 작업에 대해 훈련된 UniControl은 보지 못한 시각적 조건에서도 인상적인 제로샷 생성 능력을 보여줍니다. 실험 결과는 UniControl이 비슷한 모델 크기의 단일 작업 제어 방법들의 성능을 종종 능가함을 보여줍니다. 이러한 제어의 다양성은 UniControl을 제어 가능한 시각적 생성 분야에서 중요한 진보로 자리매김하게 합니다.
English
Achieving machine autonomy and human control often represent divergent objectives in the design of interactive AI systems. Visual generative foundation models such as Stable Diffusion show promise in navigating these goals, especially when prompted with arbitrary languages. However, they often fall short in generating images with spatial, structural, or geometric controls. The integration of such controls, which can accommodate various visual conditions in a single unified model, remains an unaddressed challenge. In response, we introduce UniControl, a new generative foundation model that consolidates a wide array of controllable condition-to-image (C2I) tasks within a singular framework, while still allowing for arbitrary language prompts. UniControl enables pixel-level-precise image generation, where visual conditions primarily influence the generated structures and language prompts guide the style and context. To equip UniControl with the capacity to handle diverse visual conditions, we augment pretrained text-to-image diffusion models and introduce a task-aware HyperNet to modulate the diffusion models, enabling the adaptation to different C2I tasks simultaneously. Trained on nine unique C2I tasks, UniControl demonstrates impressive zero-shot generation abilities with unseen visual conditions. Experimental results show that UniControl often surpasses the performance of single-task-controlled methods of comparable model sizes. This control versatility positions UniControl as a significant advancement in the realm of controllable visual generation.
PDF31December 15, 2024