InstantStyle: Un approccio senza costi aggiuntivi per la conservazione dello stile nella generazione di immagini da testo

Abstract

I modelli basati su diffusione senza necessità di tuning hanno dimostrato un potenziale significativo nel campo della personalizzazione e customizzazione delle immagini. Tuttavia, nonostante questi progressi notevoli, i modelli attuali continuano a confrontarsi con diverse sfide complesse nella generazione di immagini con stile coerente. In primo luogo, il concetto di stile è intrinsecamente sottodeterminato, comprendendo una moltitudine di elementi come colore, materiale, atmosfera, design e struttura, tra gli altri. In secondo luogo, i metodi basati sull'inversione sono soggetti a degradazione dello stile, spesso con la perdita di dettagli fini. Infine, gli approcci basati su adattatori richiedono frequentemente un tuning meticoloso dei pesi per ogni immagine di riferimento per raggiungere un equilibrio tra intensità dello stile e controllabilità del testo. In questo articolo, iniziamo esaminando diverse osservazioni convincenti ma spesso trascurate. Procediamo poi introducendo InstantStyle, un framework progettato per affrontare questi problemi attraverso l'implementazione di due strategie chiave: 1) Un meccanismo semplice che separa stile e contenuto dalle immagini di riferimento nello spazio delle feature, basandosi sull'assunzione che le feature all'interno dello stesso spazio possano essere sommate o sottratte l'una dall'altra. 2) L'iniezione delle feature delle immagini di riferimento esclusivamente nei blocchi specifici per lo stile, prevenendo così la fuoriuscita dello stile ed evitando la necessità di un tuning complesso dei pesi, che spesso caratterizza design con un numero elevato di parametri. Il nostro lavoro dimostra risultati superiori nella stilizzazione visiva, raggiungendo un equilibrio ottimale tra intensità dello stile e controllabilità degli elementi testuali. I nostri codici saranno disponibili su https://github.com/InstantStyle/InstantStyle.

English

Tuning-free diffusion-based models have demonstrated significant potential in the realm of image personalization and customization. However, despite this notable progress, current models continue to grapple with several complex challenges in producing style-consistent image generation. Firstly, the concept of style is inherently underdetermined, encompassing a multitude of elements such as color, material, atmosphere, design, and structure, among others. Secondly, inversion-based methods are prone to style degradation, often resulting in the loss of fine-grained details. Lastly, adapter-based approaches frequently require meticulous weight tuning for each reference image to achieve a balance between style intensity and text controllability. In this paper, we commence by examining several compelling yet frequently overlooked observations. We then proceed to introduce InstantStyle, a framework designed to address these issues through the implementation of two key strategies: 1) A straightforward mechanism that decouples style and content from reference images within the feature space, predicated on the assumption that features within the same space can be either added to or subtracted from one another. 2) The injection of reference image features exclusively into style-specific blocks, thereby preventing style leaks and eschewing the need for cumbersome weight tuning, which often characterizes more parameter-heavy designs.Our work demonstrates superior visual stylization outcomes, striking an optimal balance between the intensity of style and the controllability of textual elements. Our codes will be available at https://github.com/InstantStyle/InstantStyle.

InstantStyle: Un approccio senza costi aggiuntivi per la conservazione dello stile nella generazione di immagini da testo

InstantStyle: Free Lunch towards Style-Preserving in Text-to-Image Generation

Abstract

Support