ChatPaper.aiChatPaper

MagicTailor: Personalización Controlable por Componentes en Modelos de Difusión Texto-a-Imagen

MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

October 17, 2024
Autores: Donghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng
cs.AI

Resumen

Los recientes avances en modelos de difusión texto-a-imagen (T2I) han permitido la creación de imágenes de alta calidad a partir de indicaciones de texto, pero aún tienen dificultades para generar imágenes con un control preciso sobre conceptos visuales específicos. Los enfoques existentes pueden replicar un concepto dado al aprender de imágenes de referencia, sin embargo, carecen de la flexibilidad para la personalización detallada de los componentes individuales dentro del concepto. En este documento, presentamos la personalización controlable de componentes, una tarea novedosa que amplía los límites de los modelos T2I al permitir a los usuarios reconfigurar componentes específicos al personalizar conceptos visuales. Esta tarea es particularmente desafiante debido a dos obstáculos principales: la contaminación semántica, donde elementos visuales no deseados corrompen el concepto personalizado, y el desequilibrio semántico, que provoca un aprendizaje desproporcionado del concepto y del componente. Para superar estos desafíos, diseñamos MagicTailor, un marco innovador que aprovecha la Degradación Dinámica Enmascarada (DM-Deg) para perturbar dinámicamente semánticas visuales no deseadas y el Equilibrio de Doble Flujo (DS-Bal) para establecer un paradigma de aprendizaje equilibrado para semánticas visuales deseadas. Comparaciones extensas, abstracciones y análisis demuestran que MagicTailor no solo sobresale en esta desafiante tarea, sino que también tiene un gran potencial para aplicaciones prácticas, allanando el camino para una generación de imágenes más matizada y creativa.
English
Recent advancements in text-to-image (T2I) diffusion models have enabled the creation of high-quality images from text prompts, but they still struggle to generate images with precise control over specific visual concepts. Existing approaches can replicate a given concept by learning from reference images, yet they lack the flexibility for fine-grained customization of the individual component within the concept. In this paper, we introduce component-controllable personalization, a novel task that pushes the boundaries of T2I models by allowing users to reconfigure specific components when personalizing visual concepts. This task is particularly challenging due to two primary obstacles: semantic pollution, where unwanted visual elements corrupt the personalized concept, and semantic imbalance, which causes disproportionate learning of the concept and component. To overcome these challenges, we design MagicTailor, an innovative framework that leverages Dynamic Masked Degradation (DM-Deg) to dynamically perturb undesired visual semantics and Dual-Stream Balancing (DS-Bal) to establish a balanced learning paradigm for desired visual semantics. Extensive comparisons, ablations, and analyses demonstrate that MagicTailor not only excels in this challenging task but also holds significant promise for practical applications, paving the way for more nuanced and creative image generation.

Summary

AI-Generated Summary

PDF387November 16, 2024