ChatPaper.aiChatPaper

MagicTailor: Personalizzazione Controllabile dei Componenti in Modelli di Diffusione Testo-Immagine

MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

October 17, 2024
Autori: Donghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng
cs.AI

Abstract

I recenti progressi nei modelli di diffusione testo-immagine (T2I) hanno reso possibile la creazione di immagini di alta qualità da prompt di testo, ma faticano ancora a generare immagini con un controllo preciso su concetti visivi specifici. Gli approcci esistenti possono replicare un dato concetto apprendendo da immagini di riferimento, tuttavia mancano della flessibilità per una personalizzazione dettagliata dei singoli componenti all'interno del concetto. In questo articolo, presentiamo la personalizzazione controllabile dei componenti, un compito innovativo che spinge i limiti dei modelli T2I consentendo agli utenti di riconfigurare componenti specifici durante la personalizzazione dei concetti visivi. Questo compito è particolarmente impegnativo a causa di due ostacoli principali: inquinamento semantico, dove elementi visivi indesiderati corrompono il concetto personalizzato, e squilibrio semantico, che causa un apprendimento sproporzionato del concetto e del componente. Per superare queste sfide, progettiamo MagicTailor, un framework innovativo che sfrutta la Degradazione Mascherata Dinamica (DM-Deg) per perturbare dinamicamente le semantica visive indesiderate e il Bilanciamento a Doppio Flusso (DS-Bal) per stabilire un paradigma di apprendimento bilanciato per le semantica visive desiderate. Comparazioni, ablation e analisi approfondite dimostrano che MagicTailor eccelle non solo in questo compito impegnativo ma offre anche significative promesse per applicazioni pratiche, aprendo la strada a una generazione di immagini più sfumata e creativa.
English
Recent advancements in text-to-image (T2I) diffusion models have enabled the creation of high-quality images from text prompts, but they still struggle to generate images with precise control over specific visual concepts. Existing approaches can replicate a given concept by learning from reference images, yet they lack the flexibility for fine-grained customization of the individual component within the concept. In this paper, we introduce component-controllable personalization, a novel task that pushes the boundaries of T2I models by allowing users to reconfigure specific components when personalizing visual concepts. This task is particularly challenging due to two primary obstacles: semantic pollution, where unwanted visual elements corrupt the personalized concept, and semantic imbalance, which causes disproportionate learning of the concept and component. To overcome these challenges, we design MagicTailor, an innovative framework that leverages Dynamic Masked Degradation (DM-Deg) to dynamically perturb undesired visual semantics and Dual-Stream Balancing (DS-Bal) to establish a balanced learning paradigm for desired visual semantics. Extensive comparisons, ablations, and analyses demonstrate that MagicTailor not only excels in this challenging task but also holds significant promise for practical applications, paving the way for more nuanced and creative image generation.

Summary

AI-Generated Summary

PDF387November 16, 2024