ChatPaper.aiChatPaper

UniControl: Унифицированная диффузионная модель для управляемой генерации визуальных данных в реальных условиях

UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

May 18, 2023
Авторы: Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, Stefano Ermon, Yun Fu, Ran Xu
cs.AI

Аннотация

Достижение автономности машин и контроля со стороны человека часто представляют собой расходящиеся цели при проектировании интерактивных систем искусственного интеллекта. Визуальные генеративные базовые модели, такие как Stable Diffusion, демонстрируют потенциал в достижении этих целей, особенно при использовании произвольных языковых запросов. Однако они часто не справляются с генерацией изображений, требующих пространственного, структурного или геометрического контроля. Интеграция таких элементов управления, способных учитывать различные визуальные условия в рамках единой модели, остается нерешенной задачей. В ответ на это мы представляем UniControl — новую генеративную базовую модель, которая объединяет широкий спектр задач управления от условий к изображению (C2I) в единой структуре, сохраняя при этом возможность использования произвольных языковых запросов. UniControl позволяет создавать изображения с точностью на уровне пикселей, где визуальные условия в основном влияют на генерируемые структуры, а языковые запросы задают стиль и контекст. Чтобы наделить UniControl способностью обрабатывать разнообразные визуальные условия, мы расширяем предварительно обученные модели диффузии текста в изображение и вводим задаче-ориентированный HyperNet для модуляции моделей диффузии, что позволяет адаптироваться к различным задачам C2I одновременно. Обучив UniControl на девяти уникальных задачах C2I, мы демонстрируем впечатляющие возможности нулевого сэмплинга при работе с неизвестными визуальными условиями. Экспериментальные результаты показывают, что UniControl часто превосходит по производительности методы с одноцелевым управлением при сопоставимых размерах модели. Эта универсальность управления делает UniControl значительным шагом вперед в области контролируемой визуальной генерации.
English
Achieving machine autonomy and human control often represent divergent objectives in the design of interactive AI systems. Visual generative foundation models such as Stable Diffusion show promise in navigating these goals, especially when prompted with arbitrary languages. However, they often fall short in generating images with spatial, structural, or geometric controls. The integration of such controls, which can accommodate various visual conditions in a single unified model, remains an unaddressed challenge. In response, we introduce UniControl, a new generative foundation model that consolidates a wide array of controllable condition-to-image (C2I) tasks within a singular framework, while still allowing for arbitrary language prompts. UniControl enables pixel-level-precise image generation, where visual conditions primarily influence the generated structures and language prompts guide the style and context. To equip UniControl with the capacity to handle diverse visual conditions, we augment pretrained text-to-image diffusion models and introduce a task-aware HyperNet to modulate the diffusion models, enabling the adaptation to different C2I tasks simultaneously. Trained on nine unique C2I tasks, UniControl demonstrates impressive zero-shot generation abilities with unseen visual conditions. Experimental results show that UniControl often surpasses the performance of single-task-controlled methods of comparable model sizes. This control versatility positions UniControl as a significant advancement in the realm of controllable visual generation.
PDF31December 15, 2024