ChatPaper.aiChatPaper

MagicTailor: Personalização Controlável por Componentes em Modelos de Difusão Texto-para-Imagem

MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

October 17, 2024
Autores: Donghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng
cs.AI

Resumo

Os avanços recentes em modelos de difusão texto-imagem (T2I) possibilitaram a criação de imagens de alta qualidade a partir de instruções de texto, porém ainda enfrentam dificuldades em gerar imagens com controle preciso sobre conceitos visuais específicos. As abordagens existentes conseguem replicar um conceito dado aprendendo a partir de imagens de referência, no entanto, carecem de flexibilidade para a personalização detalhada dos componentes individuais dentro do conceito. Neste artigo, introduzimos a personalização controlável por componente, uma tarefa inovadora que amplia os limites dos modelos T2I ao permitir que os usuários reconfigurem componentes específicos ao personalizar conceitos visuais. Essa tarefa é particularmente desafiadora devido a dois obstáculos principais: poluição semântica, onde elementos visuais indesejados corrompem o conceito personalizado, e desequilíbrio semântico, que causa um aprendizado desproporcional do conceito e do componente. Para superar esses desafios, projetamos o MagicTailor, um framework inovador que utiliza a Degradação Mascarada Dinâmica (DM-Deg) para perturbar dinamicamente semânticas visuais indesejadas e o Balanceamento de Duplo Fluxo (DS-Bal) para estabelecer um paradigma de aprendizado equilibrado para semânticas visuais desejadas. Comparativos extensos, ablações e análises demonstram que o MagicTailor não apenas se destaca nessa tarefa desafiadora, mas também apresenta um grande potencial para aplicações práticas, abrindo caminho para geração de imagens mais refinada e criativa.
English
Recent advancements in text-to-image (T2I) diffusion models have enabled the creation of high-quality images from text prompts, but they still struggle to generate images with precise control over specific visual concepts. Existing approaches can replicate a given concept by learning from reference images, yet they lack the flexibility for fine-grained customization of the individual component within the concept. In this paper, we introduce component-controllable personalization, a novel task that pushes the boundaries of T2I models by allowing users to reconfigure specific components when personalizing visual concepts. This task is particularly challenging due to two primary obstacles: semantic pollution, where unwanted visual elements corrupt the personalized concept, and semantic imbalance, which causes disproportionate learning of the concept and component. To overcome these challenges, we design MagicTailor, an innovative framework that leverages Dynamic Masked Degradation (DM-Deg) to dynamically perturb undesired visual semantics and Dual-Stream Balancing (DS-Bal) to establish a balanced learning paradigm for desired visual semantics. Extensive comparisons, ablations, and analyses demonstrate that MagicTailor not only excels in this challenging task but also holds significant promise for practical applications, paving the way for more nuanced and creative image generation.

Summary

AI-Generated Summary

PDF387November 16, 2024