StyleAdapter: Un Modello a Singolo Passaggio Senza LoRA per la Generazione di Immagini Stilizzate

Abstract

Questo articolo presenta un metodo senza LoRA per la generazione di immagini stilizzate che prende in input un prompt testuale e immagini di riferimento per lo stile, producendo un'immagine di output in un unico passaggio. A differenza dei metodi esistenti che si basano sull'addestramento di un LoRA separato per ogni stile, il nostro metodo può adattarsi a vari stili con un modello unificato. Tuttavia, ciò pone due sfide: 1) il prompt perde il controllo sul contenuto generato, e 2) l'immagine di output eredita sia le caratteristiche semantiche che stilistiche dell'immagine di riferimento, compromettendo la fedeltà del contenuto. Per affrontare queste sfide, introduciamo StyleAdapter, un modello che comprende due componenti: un modulo di cross-attention a due percorsi (TPCA) e tre strategie di disaccoppiamento. Questi componenti consentono al nostro modello di elaborare separatamente le caratteristiche del prompt e del riferimento stilistico e ridurre il forte accoppiamento tra le informazioni semantiche e stilistiche nei riferimenti di stile. StyleAdapter può generare immagini di alta qualità che corrispondono al contenuto dei prompt e adottano lo stile dei riferimenti (anche per stili non visti) in un unico passaggio, risultando più flessibile ed efficiente rispetto ai metodi precedenti. Sono stati condotti esperimenti per dimostrare la superiorità del nostro metodo rispetto ai lavori precedenti.

English

This paper presents a LoRA-free method for stylized image generation that takes a text prompt and style reference images as inputs and produces an output image in a single pass. Unlike existing methods that rely on training a separate LoRA for each style, our method can adapt to various styles with a unified model. However, this poses two challenges: 1) the prompt loses controllability over the generated content, and 2) the output image inherits both the semantic and style features of the style reference image, compromising its content fidelity. To address these challenges, we introduce StyleAdapter, a model that comprises two components: a two-path cross-attention module (TPCA) and three decoupling strategies. These components enable our model to process the prompt and style reference features separately and reduce the strong coupling between the semantic and style information in the style references. StyleAdapter can generate high-quality images that match the content of the prompts and adopt the style of the references (even for unseen styles) in a single pass, which is more flexible and efficient than previous methods. Experiments have been conducted to demonstrate the superiority of our method over previous works.

StyleAdapter: Un Modello a Singolo Passaggio Senza LoRA per la Generazione di Immagini Stilizzate

StyleAdapter: A Single-Pass LoRA-Free Model for Stylized Image Generation

Abstract

Support