UniControl: Унифицированная диффузионная модель для управляемой генерации визуальных данных в реальных условиях
UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild
May 18, 2023
Авторы: Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, Stefano Ermon, Yun Fu, Ran Xu
cs.AI
Аннотация
Достижение автономности машин и контроля со стороны человека часто представляют собой расходящиеся цели при проектировании интерактивных систем искусственного интеллекта. Визуальные генеративные базовые модели, такие как Stable Diffusion, демонстрируют потенциал в достижении этих целей, особенно при использовании произвольных языковых запросов. Однако они часто не справляются с генерацией изображений, требующих пространственного, структурного или геометрического контроля. Интеграция таких элементов управления, способных учитывать различные визуальные условия в рамках единой модели, остается нерешенной задачей. В ответ на это мы представляем UniControl — новую генеративную базовую модель, которая объединяет широкий спектр задач управления от условий к изображению (C2I) в единой структуре, сохраняя при этом возможность использования произвольных языковых запросов. UniControl позволяет создавать изображения с точностью на уровне пикселей, где визуальные условия в основном влияют на генерируемые структуры, а языковые запросы задают стиль и контекст. Чтобы наделить UniControl способностью обрабатывать разнообразные визуальные условия, мы расширяем предварительно обученные модели диффузии текста в изображение и вводим задаче-ориентированный HyperNet для модуляции моделей диффузии, что позволяет адаптироваться к различным задачам C2I одновременно. Обучив UniControl на девяти уникальных задачах C2I, мы демонстрируем впечатляющие возможности нулевого сэмплинга при работе с неизвестными визуальными условиями. Экспериментальные результаты показывают, что UniControl часто превосходит по производительности методы с одноцелевым управлением при сопоставимых размерах модели. Эта универсальность управления делает UniControl значительным шагом вперед в области контролируемой визуальной генерации.
English
Achieving machine autonomy and human control often represent divergent
objectives in the design of interactive AI systems. Visual generative
foundation models such as Stable Diffusion show promise in navigating these
goals, especially when prompted with arbitrary languages. However, they often
fall short in generating images with spatial, structural, or geometric
controls. The integration of such controls, which can accommodate various
visual conditions in a single unified model, remains an unaddressed challenge.
In response, we introduce UniControl, a new generative foundation model that
consolidates a wide array of controllable condition-to-image (C2I) tasks within
a singular framework, while still allowing for arbitrary language prompts.
UniControl enables pixel-level-precise image generation, where visual
conditions primarily influence the generated structures and language prompts
guide the style and context. To equip UniControl with the capacity to handle
diverse visual conditions, we augment pretrained text-to-image diffusion models
and introduce a task-aware HyperNet to modulate the diffusion models, enabling
the adaptation to different C2I tasks simultaneously. Trained on nine unique
C2I tasks, UniControl demonstrates impressive zero-shot generation abilities
with unseen visual conditions. Experimental results show that UniControl often
surpasses the performance of single-task-controlled methods of comparable model
sizes. This control versatility positions UniControl as a significant
advancement in the realm of controllable visual generation.