MagicTailor: Управляемая компонентами персонализация в текст-к-изображению моделях диффузии
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models
October 17, 2024
Авторы: Donghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng
cs.AI
Аннотация
Недавние достижения в моделях диффузии текста в изображение (T2I) позволили создавать изображения высокого качества по текстовым подсказкам, однако они все еще испытывают трудности в генерации изображений с точным контролем над конкретными визуальными концепциями. Существующие подходы могут воспроизводить данный концепт, обучаясь на референтных изображениях, однако им не хватает гибкости для тонкой настройки отдельных компонентов внутри концепции. В данной статье мы представляем персонализацию с контролем компонентов, новую задачу, расширяющую границы моделей T2I, позволяющую пользователям перенастраивать конкретные компоненты при персонализации визуальных концепций. Эта задача особенно сложна из-за двух основных препятствий: семантического загрязнения, когда нежелательные визуальные элементы портят персонализированный концепт, и семантического дисбаланса, который вызывает неравномерное обучение концепции и компонента. Для преодоления этих препятствий мы разрабатываем MagicTailor, инновационную структуру, использующую динамическое маскированное деградирование (DM-Deg) для динамического искажения нежелательной визуальной семантики и двухпоточное балансирование (DS-Bal) для установления сбалансированной парадигмы обучения для желаемой визуальной семантики. Обширные сравнения, абляции и анализы демонстрируют, что MagicTailor не только преуспевает в этой сложной задаче, но также обладает значительным потенциалом для практических применений, открывая путь к более тонкому и креативному созданию изображений.
English
Recent advancements in text-to-image (T2I) diffusion models have enabled the
creation of high-quality images from text prompts, but they still struggle to
generate images with precise control over specific visual concepts. Existing
approaches can replicate a given concept by learning from reference images, yet
they lack the flexibility for fine-grained customization of the individual
component within the concept. In this paper, we introduce
component-controllable personalization, a novel task that pushes the boundaries
of T2I models by allowing users to reconfigure specific components when
personalizing visual concepts. This task is particularly challenging due to two
primary obstacles: semantic pollution, where unwanted visual elements corrupt
the personalized concept, and semantic imbalance, which causes disproportionate
learning of the concept and component. To overcome these challenges, we design
MagicTailor, an innovative framework that leverages Dynamic Masked Degradation
(DM-Deg) to dynamically perturb undesired visual semantics and Dual-Stream
Balancing (DS-Bal) to establish a balanced learning paradigm for desired visual
semantics. Extensive comparisons, ablations, and analyses demonstrate that
MagicTailor not only excels in this challenging task but also holds significant
promise for practical applications, paving the way for more nuanced and
creative image generation.Summary
AI-Generated Summary