DreamTuner: Una singola immagine è sufficiente per la generazione guidata dal soggetto
DreamTuner: Single Image is Enough for Subject-Driven Generation
December 21, 2023
Autori: Miao Hua, Jiawei Liu, Fei Ding, Wei Liu, Jie Wu, Qian He
cs.AI
Abstract
I modelli basati sulla diffusione hanno dimostrato capacità impressionanti nella generazione di immagini da testo e sono promettenti per applicazioni personalizzate di generazione guidata da soggetti, che richiedono la creazione di concetti personalizzati con una o poche immagini di riferimento. Tuttavia, i metodi esistenti basati sul fine-tuning non riescono a bilanciare il compromesso tra l'apprendimento del soggetto e il mantenimento delle capacità di generazione dei modelli pre-addestrati. Inoltre, altri metodi che utilizzano encoder di immagini aggiuntivi tendono a perdere dettagli importanti del soggetto a causa della compressione durante la codifica. Per affrontare queste sfide, proponiamo DreamTurner, un metodo innovativo che inietta le informazioni di riferimento da un livello grossolano a uno fine per ottenere una generazione di immagini guidata dal soggetto in modo più efficace. DreamTurner introduce un subject-encoder per preservare l'identità grossolana del soggetto, dove le caratteristiche generali compresse del soggetto vengono introdotte attraverso uno strato di attenzione prima dell'attenzione incrociata visivo-testuale. Successivamente, modifichiamo gli strati di self-attention all'interno dei modelli pre-addestrati di generazione da testo a immagini in strati di self-subject-attention per affinare i dettagli del soggetto target. L'immagine generata interroga le caratteristiche dettagliate sia dall'immagine di riferimento che da se stessa nella self-subject-attention. Vale la pena sottolineare che la self-subject-attention è un metodo efficace, elegante e privo di addestramento per mantenere le caratteristiche dettagliate dei soggetti personalizzati e può fungere da soluzione plug-and-play durante l'inferenza. Infine, con un ulteriore fine-tuning guidato dal soggetto, DreamTurner raggiunge prestazioni notevoli nella generazione di immagini guidata dal soggetto, che può essere controllata da un testo o da altre condizioni come la posa. Per ulteriori dettagli, visitare la pagina del progetto all'indirizzo https://dreamtuner-diffusion.github.io/.
English
Diffusion-based models have demonstrated impressive capabilities for
text-to-image generation and are expected for personalized applications of
subject-driven generation, which require the generation of customized concepts
with one or a few reference images. However, existing methods based on
fine-tuning fail to balance the trade-off between subject learning and the
maintenance of the generation capabilities of pretrained models. Moreover,
other methods that utilize additional image encoders tend to lose important
details of the subject due to encoding compression. To address these
challenges, we propose DreamTurner, a novel method that injects reference
information from coarse to fine to achieve subject-driven image generation more
effectively. DreamTurner introduces a subject-encoder for coarse subject
identity preservation, where the compressed general subject features are
introduced through an attention layer before visual-text cross-attention. We
then modify the self-attention layers within pretrained text-to-image models to
self-subject-attention layers to refine the details of the target subject. The
generated image queries detailed features from both the reference image and
itself in self-subject-attention. It is worth emphasizing that
self-subject-attention is an effective, elegant, and training-free method for
maintaining the detailed features of customized subjects and can serve as a
plug-and-play solution during inference. Finally, with additional
subject-driven fine-tuning, DreamTurner achieves remarkable performance in
subject-driven image generation, which can be controlled by a text or other
conditions such as pose. For further details, please visit the project page at
https://dreamtuner-diffusion.github.io/.