Genera Qualsiasi Cosa Ovunque in Qualsiasi Scena
Generate Anything Anywhere in Any Scene
June 29, 2023
Autori: Yuheng Li, Haotian Liu, Yangming Wen, Yong Jae Lee
cs.AI
Abstract
I modelli di diffusione text-to-image hanno attirato un notevole interesse grazie alla loro ampia applicabilità in diversi campi. Tuttavia, persistono sfide nella creazione di modelli controllabili per la generazione di oggetti personalizzati. In questo articolo, identifichiamo innanzitutto i problemi di entanglement nei modelli generativi personalizzati esistenti, e poi proponiamo una strategia di addestramento di data augmentation semplice ed efficiente che guida il modello di diffusione a concentrarsi esclusivamente sull'identità dell'oggetto. Inserendo i livelli adattatori plug-and-play di un modello di diffusione controllabile pre-addestrato, il nostro modello acquisisce la capacità di controllare la posizione e le dimensioni di ciascun oggetto personalizzato generato. Durante l'inferenza, proponiamo una tecnica di campionamento guidato regionalmente per mantenere la qualità e la fedeltà delle immagini generate. Il nostro metodo raggiunge una fedeltà comparabile o superiore per gli oggetti personalizzati, producendo un modello di diffusione text-to-image robusto, versatile e controllabile in grado di generare immagini realistiche e personalizzate. Il nostro approccio dimostra un potenziale significativo per varie applicazioni, come quelle nel campo dell'arte, dell'intrattenimento e del design pubblicitario.
English
Text-to-image diffusion models have attracted considerable interest due to
their wide applicability across diverse fields. However, challenges persist in
creating controllable models for personalized object generation. In this paper,
we first identify the entanglement issues in existing personalized generative
models, and then propose a straightforward and efficient data augmentation
training strategy that guides the diffusion model to focus solely on object
identity. By inserting the plug-and-play adapter layers from a pre-trained
controllable diffusion model, our model obtains the ability to control the
location and size of each generated personalized object. During inference, we
propose a regionally-guided sampling technique to maintain the quality and
fidelity of the generated images. Our method achieves comparable or superior
fidelity for personalized objects, yielding a robust, versatile, and
controllable text-to-image diffusion model that is capable of generating
realistic and personalized images. Our approach demonstrates significant
potential for various applications, such as those in art, entertainment, and
advertising design.